![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
滑冰选手库里
纸上得来终觉浅,绝知此事要躬行
展开
-
爬虫实战python爬取猫眼电影TOP100
import requestsfrom requests.exceptions import RequestExceptionimport reimport json# 多线程,一秒完成数据的爬取# from multiprocessing import Pooldef get_one_page(url): # 默认的ua是Python的 ,一般都会首选过滤掉这种ua,可以...原创 2018-07-15 22:45:34 · 594 阅读 · 0 评论 -
爬取猫眼电影《一出好戏》数据并分析
一、获取数据1. 简介 本次获取的是猫眼APP的评论数据,如图所示:通过分析发现猫眼APP的评论数据接口为:http://m.maoyan.com/mmdb/comments/movie/1203084.json?_v_=yes&offset=0&startTime=2018-08-23%2014%3A25%3A03 通过对评论数据进行分析,得到如下...翻译 2018-08-25 16:27:36 · 4937 阅读 · 0 评论 -
scrapy笔记
其中1 2 4条命令常用scrapy startproject beikescrapy genspider ershou https://wz.ke.com/ershoufang/scrapy crawl ershou yield关键字的使用——生成器(不断产生值的函数)优势: 后两个参数只能有一个参数发挥作用 实战...原创 2018-10-18 17:01:28 · 284 阅读 · 0 评论 -
scrapy笔记2—实现多级页面信息分别爬取
yield scrapy.Request(item['url'], meta={'item': item}, callback=self.detail_parse)Scrapy 用scrapy.Request发起请求可以带上 meta={'item': item} 把之前已收集到的信息传递到新请求里,在新请求里用 item = response.meta('item') 接受过来,在 item ...原创 2018-10-19 14:18:56 · 4856 阅读 · 5 评论 -
爬虫清洗:python strip()函数 去空格\n\r\t函数的用法
在Python中字符串处理函数里有三个去空格(包括'\n', '\r', '\t', ' ')的函数:strip 同时去掉左右两边的空格lstrip 去掉左边的空格rstrip 去掉右边的空格具体示例如下:>>>a=" gho stwwl ">>>a.lstrip() 'gho stwwl '>>>a.rstrip() ' g...原创 2019-01-23 10:19:04 · 18061 阅读 · 0 评论 -
Scrapy爬虫同步、异步保存MySQL
1、保存数据库有两种方法:同步操作:数据量少的时候采用异步操作:数据量大时采用,scrapy爬取的速度大于数据库插入的速度,当数据量大时就会出现堵塞,就需要采用异步保存。这里多大的数据量才可定义为大??2、须知mysql知识点数据库与表的创建,基本操作; 参考https://blog.csdn.net/shalyniu/article/details/79247423数...原创 2019-02-21 16:52:07 · 2116 阅读 · 3 评论 -
python中给列表里添加字典时被最后一个覆盖的2种解决方法
方法一list = [] a = {'a':'1', 'b':'1'}list.append(a)a['a'] = '2'a['b'] = '2' list.append(a) #最终结果:[{‘a’: ‘2’, ‘b’: ‘2’}, {‘a’: ‘2’, ‘b’: ‘2’}]原因:append()方法只是将字典的地址存到list中,而键赋值的方式就是修改地址...原创 2019-02-17 15:59:58 · 2438 阅读 · 2 评论 -
python+selenium+chrome批量文件下载并自动创建文件夹
实现效果:通过url所绑定的关键名创建目录名,每次访问一个网页url后把文件下载下来代码:其中 data[i][0]、data[i][1] 是代表 关键词(文件保存目录)、网站链接(要下载文件的网站)def getDriverHttp(): for i in range(reCount): # 创建Chrome浏览器配置对象实例 chromeO...原创 2019-04-02 18:36:02 · 4560 阅读 · 1 评论 -
安装python3+pip3+scrapy+redis导出数据
如果删除了系统上自带的python, 这里我把一个python文件删除了. 这里只需要设置一个软连接就好了bin] ln -s /usr/bin/python2.6 /usr/bin/pythonLinux会自带一个Python2的版本, 我的服务器自带的是Python2.6.6的版本,这并不影响再次安装一个新的版本.我使用的是wget网络传输方式下载的Python安装包.下面是安...原创 2018-07-28 21:29:59 · 569 阅读 · 0 评论 -
Python3.6爬虫报错处理bs4.FeatureNotFound: Couldn't find a...
bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: html_parser. Do you need to install a parser library?处理解决方法1:在报错代码中把函数参数中所有的"lxml"改成"html.parser"例子: bs = ...原创 2018-07-27 09:53:47 · 1949 阅读 · 1 评论 -
Python读取CSV文件
普通方法读取: 1 with open("fileName.csv") as file:2 for line in file:3 print line 用CSV标准库读取: 1 import csv2 csv_reader = csv.reader(open("fileName.csv"))3 for row in csv_rea...转载 2018-08-04 01:11:13 · 231 阅读 · 0 评论 -
代理池
https://github.com/Python3WebSpider/ProxyPool 为了设置随机的UA,我在spyder写了如下,加载fake_useragent库:from fake_useragent import UserAgent结果显示:ModuleNotFoundError: No module named 'fake_useragent'百度...原创 2018-07-30 17:26:33 · 353 阅读 · 0 评论 -
利用pandas生成csv文件和读取csv文件中的方法
方法一:1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如下方打印的内容所示,cloumns指定列表,列表必须是列表3、to_csv方法可以直接保存csv文件,index=False表示csv文件不加行序号保存csv结果应用到我们的爬虫代码,传入的...原创 2018-07-27 22:48:11 · 86146 阅读 · 2 评论 -
python爬虫自动创建文件夹,与自动爬取信息保存至本地html实现
1.创建文件夹的功能:#file settingfolder_path = "D:/spider_things/2016.4.6/" + file_name +"/"if not os.path.exists(folder_path):os.makedirs(folder_path)上面代码块的意思是:"os.path.exists(folder_path)"用来判断fol...原创 2018-08-01 10:12:25 · 3042 阅读 · 0 评论 -
爬虫设置随机访问时间间隔
设置访问时间间隔很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent可以设置访问的时间间间隔长一点,比如每抓取一个页面休眠一个随机时间:importtimeimport randomtime.sleep(random.random()*3)对于一个crawler来说,这是一个比较respo...原创 2018-08-01 14:57:45 · 13298 阅读 · 1 评论 -
爬虫中经常出现Traceback (most recent call last):问题解决!!!
问题描述:当用快速爬取某网站出现经常出现Traceback (most recent call last):的错误,也就是连接失败。原因首先是快速爬取连接时网络不稳定造成的,于是写了个多次尝试连接的函数。错误界面:Traceback (most recent call last): File "E:/pycharm/PycharmProjects/爬虫/BG5.py", ...原创 2019-04-25 09:10:47 · 223727 阅读 · 11 评论