- 博客(6)
- 收藏
- 关注
转载 一个咸鱼的python爬虫之路(五):scrapy 爬虫框架
介绍一下scrapy 爬虫框架 安装方法 pip install scrapy 就可以实现安装了。我自己用anaconda 命令为conda install scrapy。 1 Engine从Spider处获得爬取请求(Request)2Engine将爬取请求转发给Scheduler,用于调度 3 Engine从Scheduler处获得下一个要爬取的请求4 ...
2017-06-17 19:34:00 426
转载 python生成词云
期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba(一个中文分词库)、wordcould、matplotlib、PIL、numpy。 ...
2017-06-12 21:38:00 144
转载 一个咸鱼的Python爬虫之路(四):将爬取数据存入mysql
Python 与 mysql 数据连接 用pymysql import pymysql conn =pymysql.connect(host='127.0.0.1',user='root',password='123456',db='company',charset="utf8") cur=conn.cursor() sql=‘’‘’‘’ employee=cu...
2017-05-27 00:22:00 455
转载 一个咸鱼的Python爬虫之路(三):爬取网页图片
学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片。依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图。所以我找了这个网站http://www.ivsky.com 网站里面有很多的图集,我们就找你的名字这个图集来爬取 http://www.ivsky.com/bizhi/yourname...
2017-05-11 13:27:00 330
转载 一个咸鱼的Python爬虫之路(二):BeautifulSoup库
来记录一下BeautifulSoup的相关方法 BeautifulSoup 和之前讲到的requests库都是比较实用的python第三方库通过初学者两者结合基本可以爬取小规模的数据了 下一篇就写一个小列子好了,废话说完先来介绍BeautifulSoup 库吧 安装就略了下一个网上ANACONDA 常用的库基本都有了一个集成的开发环境挺好的。 还是先给个官方文档地址:http:/...
2017-05-03 01:08:00 193
转载 一个咸鱼的Python爬虫之路(一):requests库
作为一个打了3年游戏的咸鱼,来总结下所学的爬虫知识。 urllib库之前有些了解就不写了,从requests 库开始吧(ˉ▽ ̄~) 。 首先要说的是一定要用好官方文档:http://docs.python-requests.org/en/master/ 先来看个列子吧: 下面介绍requests库的几种基本用法: 具体代码略过参考官方文档练习就好,这里面get是最...
2017-05-01 15:14:00 535
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人