自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

苏菲兔子和魔法师小麦

Python2中文网:http://python2.cn

  • 博客(4)
  • 收藏
  • 关注

原创 [python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】

某某孙逸仙魔法大学计科的python新手撰写,最近被前女友劈腿,我心里几乎是崩溃的,于是找了点时间做了做这个知乎的项目,写一些东西作为笔记。表示楼主在网上看到这个:我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告 http://it.taocms.org/07/8326.htm想着自己也完全有能力做一些类似的project,于是楼楼拿出自己封存半年的知乎帐号开始了爬虫之旅。 作者

2015-10-31 17:30:26 19989 2

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧,本地保存文字版【PART 1】

来自某SYSU中山不放假大学,初级新手的python自学之路啊。。。泪目,做一个Scrapy教程方便跟我一样的新人吧,整天百度太累人了!之前用python的requests模块做了爬糗百、贴吧(单帖)、中大教务系统的选课结果查询的小project,其实运用的都是最基本的爬虫,在还是再强调一下requests模块真的比urllib好用多了,真心推荐大家去学习一下,可以节约你背urllib函数的很大功夫

2015-10-24 00:52:05 18591

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧,本地保存文字版【PART 2】

这里紧接着上一节的内容讲: 上一节在这里:http://blog.csdn.net/xiaomai_sysu/article/details/49372711上次我们定义了item.py\pipelines.py\settings.py,了解了布隆过滤。今天我们定义重头戏:定义蜘蛛我们首先在脑海里回想一下我们的目标:抓取所有的《中山大学吧》帖子标题+内容我们先来到百度贴吧的中山大学主页。我们看到,

2015-10-24 11:11:22 7986

原创 python简单爬取热门文字段子并自动浏览

最近刚学python的爬虫,意外找到转自崔庆才老师的爬虫实战教程,觉得不错。这里是我的学习笔记,更好的教程在:http://python.jobbole.com/81351/ (不知道为什么,在学校登不进崔老师的博客,所以放一份伯乐在线网的转载)实战目标 1.用requests模板抓取糗百热门的段子 2. 过滤所有带图片的段子 3 设定想浏览的页数、设定每隔多少时间刷新下个段子

2015-10-20 22:28:48 9596

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除