Python爬虫
爬虫可能是目前接触最有趣的一个领域,让我们一起愉快地玩耍吧。
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
beyond_LH
接纳自己,并快乐地生活
展开
-
操作python中的正则表达式(上)
上次的爬虫最终获取了马蜂窝旅行评论页面的全部内容,其实很多都是无用信息,我们要进行筛选清洗,这就用到了正则表达式,在写爬虫后续之前先大概搞一下正则…… 先上代码吧,今天先搞一小部分:import reprint(re.match('you','you are my sunshine'))print(re.match('you','you are my sunshine')...原创 2018-06-21 00:14:56 · 1603 阅读 · 0 评论 -
使用jieba+matplotlib+wordcloud生成微信好友备注名词云图
重大发现,itchat貌似被封了,今晚打算重新爬一下好友信息,结果没有反应。。。那还是使用之前的数据吧,哎,可能不是那么准确了。#!/usr/bin/env python3# -*- coding: utf-8 -*-# 导入jieba模块,用于中文分词import jieba# 导入matplotlib,用于生成2D图形import matplotlib.pyplot as...原创 2018-12-19 21:12:58 · 5720 阅读 · 0 评论 -
使用jieba+wordcloud生成微信好友个性签名词云图
讲真,词云图是我接触python语言以及大数据的启蒙者,记得很久以前看到网上有个制作qq好友相关信息的词云图,真的是瞬间就惊呆了,兴趣使然,真心爱上了这一块,也没想到从基础学起历经了这么长时间,现在又来到了词云的世界。根据之前获取的数据,分析一下微信好友的个性签名,这样可以大体上得知朋友圈的风气如何~~对于词云图,首先要做的就是获取“词集”,这就要用到分词,目前最常用的是jieba分词模块,其...原创 2018-11-23 16:07:13 · 5348 阅读 · 0 评论 -
微信好友所在城市可视化分析
上次是对微信好友的性别进行了统计分析,接下来将要对其位置分布做可视化显示,看看我的好友所在城市分布有何规律~从 v0.3.2 开始,为了缩减项目本身的体积以及维持 pyecharts 项目的轻量化运行,pyecharts 将不再自带地图 js 文件,因此我们需要自行安装地图扩展包,大概是以下这些:当然也不用全部安装,按自己的需求吧,echarts-countries-pypkg:即...原创 2018-11-14 15:51:18 · 6343 阅读 · 0 评论 -
利用pyecharts显示微信好友性别比例
还有半个小时就双十一了,祝大家节日快乐~~~~上次筛选出了微信好友的主要信息,今天我们以性别为主题,来看一看你的男生缘和女生缘哪个更好……#!/usr/bin/env python # -*- coding:utf-8 -*-# 导入Pie组件,用于生成饼图from pyecharts import Pie# 获取所有性别sex = []with open('friends...原创 2018-11-10 23:34:09 · 9765 阅读 · 0 评论 -
爬取微信好友详细信息
今天看到一位大佬的文章,很感兴趣,现照着葫芦画瓢,开发具有自己特色的研究路线,原文在此,大家可以参观一下~~https://blog.csdn.net/tangyang8941/article/details/82837284#commentBoxok,开始搞起来……代码很少,很好理解:#!/usr/bin/env python # -*- coding:utf-8 -*-#...原创 2018-11-07 11:26:52 · 8439 阅读 · 2 评论 -
筛选微信好友所需信息并保存到本地文档
上次爬取了微信好友的详细信息,条目很多,我们可以提取重要信息,比如昵称,备注,个性签名等,然后将筛选的信息保存到本地,这样便于后期的统计工作,上代码,再次声明,本代码出自上一篇提到的大佬,大家如果需要查看原文可点击上一篇博客:#!/usr/bin/env python # -*- coding:utf-8 -*-# 导入itchat模块,操作微信个人号的接口import itchat...原创 2018-11-09 12:02:20 · 5315 阅读 · 0 评论 -
终极一招——提高博客的访问量
csdn的老用户都知道,之前新手发的博客也是可以推荐到首页的,不过后来不知为何这一功能关闭了,直接导致各位非博客专家的激情扑街~~虽然大多数人写博客只是为了记录自己的一些心得(比如在下),但我们也是很希望自己辛苦写的文章可以被更多的人看到,应该是这样。。so,自食其力吧,衷心盼望csdn可以再开推荐到首页功能,给我们这些平头百姓一些光明……直接上代码吧,你懂的…… #!/usr/bi...原创 2018-03-29 17:38:25 · 1787 阅读 · 0 评论 -
一个简单的爬虫实例
貌似学习python就绕不过爬虫,今天看了很多资料,各式各样的爬虫,各种尝试,最后还是只能搞定入门级的,嗯,一步步来吧……import requestsfrom lxml import htmlurl='https://music.douban.com/' #需要爬的网址page=requests.Session().get(url) tree=html.fromstring(...原创 2018-03-25 23:31:02 · 39393 阅读 · 11 评论 -
基于python3.x的爬取马蜂窝旅游的游记照片
前几天在csdn首页看到一个大佬爬取看准网数据并分析的博客,自己搞了一下,各种问题,已超过目前的认知领域,so,先从基本的做起吧,一点点添加新内容。本次任务为爬取马蜂窝旅行达人的游记照片,之前搞过几次马蜂窝,中间停顿过长,再次回归吧。上代码:import reimport urllib.requestimport osfrom lxml import etreedef sa...原创 2018-10-13 20:50:40 · 9434 阅读 · 9 评论 -
将爬取的数据存储到数据库
之前都是将数据存到了文档中或者excel中(排版很不好,稍后研究一下),今天尝试一下对数据库的操作……先上代码吧:class Mysql_Exe(): def _getconn(self): try: self.conn=pymysql.connect(host='127.0.0.1',user='root',passwd='123456'...原创 2018-07-20 23:28:06 · 6573 阅读 · 0 评论 -
爬取马蜂窝用户评论界面中的用户ID、用户名以及评分
距离上篇爬虫有些久了,但不会缺席的~~~昨晚去看了“我不是药神”,比较压抑,又感动,有悲愤,也有无奈,生命啊,请珍惜。上次爬取了马蜂窝旅行都江堰景点的用户评论信息,比较杂,我们选取其中的用户ID、用户名以及用户评分,开始数据的清洗吧……主要代码就三行:pattern=r'<a class="name" href="/u/(.*?).html" target="_blank">(.*?)...原创 2018-07-07 11:44:34 · 4705 阅读 · 0 评论 -
操作python中的正则表达式(下)
六月最后一天,我的精神支柱家驹二十五年祭,愿你依然高歌,不羁放纵爱自由。进入正则下篇,上代码吧:import repat=re.compile(r'(\d+)')print('*****compile函数用于编译正则表达式,生成一个正则表达式Pattern对象*****')p=pat.match('ni2333hao666a')print(p)p1=pat.match('ni2333ha...原创 2018-06-30 14:09:04 · 1415 阅读 · 0 评论 -
爬取马蜂窝用户评论页面
这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,推荐使用谷歌浏览器,按F12显示源码信息,选中js,因为每一页的评论都是动态加载的(注意到不管点第几页浏览器的地址栏都是不变的),用到了ajax技术,我们随意点一页看一下,比如第二页:可以看到密密麻麻的信息,大家如果想详细了解每一项的意思可以自行谷歌,咱们在这就不细说了,其实大部分信息看名字就能读懂,比如编码格式,语言,...原创 2018-06-16 19:05:15 · 7834 阅读 · 13 评论 -
基于python3.6的马蜂窝旅行模拟登陆
这段时间在爬马蜂窝的用户信息,之前搞的是注册用户的粉丝和关注的人,这个稍后再整理,内容比较多;在爬用户的社交圈时需要登陆权限,那就搞一下模拟登陆吧~~进入马蜂窝旅行的登陆界面,按F12查看源码,输入用户名密码登陆,查看如下所示:可以看到login的请求url和method,往下走就是常规操作了,首先看到headers中要用到的信息:Form Data中的内容为用户的账号和密码,就不展示密码了吧。。...原创 2018-06-14 11:49:18 · 4209 阅读 · 1 评论 -
基于itchat获取微信好友头像
itchat貌似又解封了。。关于微信好友这块就到此结束吧,也没啥新意了~~上代码:#!/usr/bin/env python # -*- coding:utf-8 -*-import itchatimport os# 获取数据def get_image(): itchat.auto_login() friends = itchat.get_friends(...原创 2018-12-23 15:12:40 · 4915 阅读 · 2 评论