python爬虫
宇宙无敌帅超人
这个作者很懒,什么都没留下…
展开
-
python3模拟有道翻译和谷歌翻译对比
模拟有道词典(成功):import urllib.requestimport urllib.parseimport jsonimport timewhile True: content = input("请输入需要翻译的内容(输入'1'退出程序):") if content == '1': break url = 'http://fa原创 2018-01-29 15:46:16 · 3938 阅读 · 1 评论 -
爬虫返回页面乱码处理
最近写了个小爬虫,返回页面是完全乱码的,连Html结构都是乱码,用chardet的detect方法判断了下response.content,还是看不出返回的页面是什么编码,经过多方查阅,get到一个新的技能(之前从没用过这个库)。。import urllib3import requestshttp = urllib3.PoolManager()r = http.request('GE...原创 2018-09-15 16:35:10 · 4144 阅读 · 1 评论 -
Mongodb数据导出指定格式
Mongo支持导出格式有csv、json、dat,其导入导出指定为mongoexport、mongoimport数据库里数据如下:导出步骤: 1、先进入命令行模式,cd到mongo安装的安装bin目录下面 2、输入如下导出指令mongoexport -d zhilian -c jiangsu -o jiangsu.jsonmongoexport -d z...原创 2018-07-23 15:26:29 · 7812 阅读 · 0 评论 -
爬虫练习(四)
利用requests + bs4 + re库进行股票数据定向爬虫import requestsfrom bs4 import BeautifulSoupimport tracebackimport re#得到东方财富网的页面源代码def getHTMLText(url, code = 'utf-8'): try: r = requests.get(url, ti...原创 2018-05-07 22:44:49 · 3165 阅读 · 0 评论 -
爬虫练习(三)
用requests + re库做的小练习:定向爬取淘宝商品信息(分页+保存csv文件)url : 'https://s.taobao.com/search?q=' + ‘书包’+ ‘&s=’+ str(44*i)import requestsimport reimport osdef getHTMLText(url): try: r = requests.g...原创 2018-05-06 21:03:16 · 3053 阅读 · 0 评论 -
爬虫练习(二)
用requests + bs4库做的小练习:定向爬取中国大学排名url : http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.htmlimport requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests...原创 2018-05-05 15:09:13 · 3030 阅读 · 0 评论 -
爬虫练习(一)
用requests + bs4库做的小练习:爬取汽车之家的一张图片import osimport reimport requestsfrom bs4 import BeautifulSoupdef getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status(...原创 2018-05-04 21:42:42 · 3020 阅读 · 0 评论 -
Scrapy框架安装错误解决(最全总结)
问题描述:当前环境win10,python_3.6.5,64位。 在windows下,在dos中运行pip install Scrapy报错:解决方案:需要安装依赖,http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载Twisted对应版本的whl文件,cp后面是python版本,amd64代表64位,运行命令:pip install C:\U...原创 2018-05-09 14:18:22 · 11281 阅读 · 2 评论 -
用python3下载一只猫
代码如下:import urllib.requestresponse = urllib.request.urlopen("http://placekitten.com/500/600")cat_img =response.read()with open('cat_500_600.jpg','wb') as f: f.write(cat_img)原创 2018-01-29 15:49:37 · 3249 阅读 · 0 评论 -
Ubuntu安装Mongodb,历经折腾
最近因为项目原因,要搭建分布式爬虫,加上实验室更换了电脑,重装mongo,遇到一系列莫名奇妙的之前没遇到的错误,mark下。之前安装的方式一直用的都是:sudo apt-get install mongodb安装没问题,而且启动命令也默认添加了环境变量配置文件中,但是启动mongo启动提示出错:liangshuai@galaxy:~$ mongoMongoDB shell v...原创 2018-12-28 22:16:21 · 3011 阅读 · 0 评论