spider
俞泰鑫
这个作者很懒,什么都没留下…
展开
-
scrapy middlewares.py中间件使用
1. 自建中间件类:用于fake_useragent生成随机代理from fake_useragent import UserAgent#自建随机生成User-Agent的类#任何一个被下载器中间件拦截的request,都得在这里执行随机生成user-agent,并赋值给headers中的参数User-Agentclass BaidumiddleRandomUaMiddleware(ob...原创 2020-01-01 21:56:14 · 1007 阅读 · 0 评论 -
python爬虫 爬取360图片(非结构化数据)
爬虫思路:先拼接json数据包的url,再从中提取图片链接域名:image.so.com抓包360图片是动态加载的数据点击图片分类中的清新美女 --> ctrl + shift + i --> Network --> xhr -->向下滑动鼠标加载图片抓包找到图片所在包,查看queryStringParametersch:beautyt1:595...原创 2020-01-01 15:03:11 · 1503 阅读 · 0 评论 -
scrapy使用流程 及 爬取猫眼电影排行榜 --存入mysql和mongodb
在shell中创建scrapy项目scrapy startproject Maoyan创建爬虫文件maoyan.pycd Maoyanscrapy genspiser maoyan maoyan.comitems.py中定义要抓取的数据结构:电影名、主演、上映时间import scrapyclass MaoyanItem(scrapy.Item) #名称+主演...原创 2019-12-29 21:16:43 · 434 阅读 · 0 评论 -
scrapy settings.py中常用变量详解
BOT_NAME = '项目名' #项目名SPIDER_MODULES = ['Baidu.spiders']NEWSPIDER_MODULE = 'Baidu.spiders' #爬虫文件所在位置USER_AGENT = 'Mozilla/5.0' #在这儿指定你的User-AgentROBOTSTXT_OBEY = False #是否遵循robot协议(君子协议),一般设置F...原创 2019-12-27 17:49:56 · 213 阅读 · 1 评论 -
ubuntu16.4安装scrapy遇到的问题记录
步骤shell中安装:sudo pip3 install Scrapy遇到报错报错:Exception: Version mismatch: this is the ‘cffi’ package version 1.13.2, located in ‘/usr/local/lib/python3.5/dist-packages/cffi/api.py’. When we impor...原创 2019-12-27 16:47:00 · 943 阅读 · 0 评论 -
python爬虫 设置浏览器无头(无界面)模式
from selenium import webdriver#创建chrome浏览器的功能对象optins = webdriver.ChromeOptions()#添加无头参数options.add_argument('--headless')browser = webdriver.Chrome(options=options)...原创 2019-12-27 11:01:24 · 1703 阅读 · 0 评论 -
python爬虫 使用selenium抓取 猫眼电影网站排名页 电影信息
from selenium import webdriverimport timebrowser = webdriver.Chrome() #打开chromebrowser.get('http://maoyan.com/board/4') #进入主页,会等待页面加载完#获取一个页面的电影信息def get_one_page() #通过xpath表达式获取电影信息节点对象列表 d...原创 2019-12-27 10:44:19 · 682 阅读 · 0 评论 -
python爬虫 使用selenium操作浏览器
selenium提供的APIfrom selenium import webdriverbrowser = webdriver.Chrome(executable_path='path') #若已将浏览器驱动添加到环境变量:/usr/bin,就不需要参数browser.get(url) #进入页面browser.page_source #获取HTML页面源码browser.page_s...原创 2019-12-25 20:01:53 · 186 阅读 · 0 评论 -
python爬虫 --cookie模拟登录后抓取数据
适用网站及场景抓取需要登录才能访问的页面:有的网站你得登进去才能看到页面,直接访问网页地址会给你跳转到登录页面cookie和session机制Http协议为无连接协议cookie存放在客户端浏览器,session存放在web服务器方法一:requests.get()中参数headers参数中携带你的cookie先登录成功1次,获取到携带登录信息的cookie:登录成功–个人主页–F1...原创 2019-12-25 17:58:07 · 2957 阅读 · 0 评论 -
python爬虫 腾讯招聘网岗位数据(requests版和scrapy版) --存入json
需求抓取职位名称,工作职责,岗位要求,发布时间,地点流程一级页面处理:目标:提取二级页面的链接上面有二级页面(具体岗位信息)的链接,看是静态页面还是动态页面(在源码中搜页面中的词),发现是动态页面,获取数据用json马不停蹄去抓包:Network -->preview -->找到一级页面的数据所在的包,在它们的Headers -->General -->Re...原创 2019-11-20 21:29:01 · 859 阅读 · 0 评论 -
python爬虫 多线程抓取小米应用商店全站应用信息(动态数据) --保存到csv文件
需求抓取所有分类下的所有应用步骤确认是否为动态页面在网页源码中搜索你要获取的数据中的关键词,发现源码中没有,确认为动态数据抓包进入控制台Network -->xhr多刷几次页面抓包后Preview,找到你要的那些数据包在Network – > xhr --> Headers --> General -->Request URL,将后端返给前端的接口取...原创 2019-11-20 16:11:37 · 772 阅读 · 0 评论 -
python爬虫 抓取豆瓣电影 电影分类排行榜的所有数据
准备流程确认是否为动态数据在页面源代码中搜你要的数据中的关键词,若搜不出来,就说明是动态数据只要是动态数据,直接去抓包控制台Network ->xhr -> 点击左下角各个数据包preview,找到你想要的数据所在的那些数据包后 -> Headers -> general ->request-URL:找到后端返给前端的接口电影总数的request-URL为...原创 2019-11-19 23:12:29 · 5324 阅读 · 4 评论 -
python爬虫爬取民政局网中的行政区划带数据 并存入mysql
需求爬取明政局网中的行政区划带数据:行政区名&代号流程从一级页面中提取进入二级页面的链接xpath表达式为://table/tr[2]//a/@href(此处需要在源码中写xpath表达式,页面节点中查看的是错误的)注意:这个网站访问进去有个反爬虫操作:二级页面重定向到了其他页面(真正存放数据的页面),导致你从一级页面获取的二级页面链接的错误的,还需从重定向前的二级页面中获取...原创 2019-11-18 21:42:27 · 863 阅读 · 0 评论 -
python爬虫 抓取可用的开放代理(proxy)或私密代理IP 并存入代理IP池
import requestsclass Proxypool: def __init__(self): self.url = 'http://xxx' #网站生成的给你的代理IP表的链接(格式为一个页面上每行都是代理IP) self.headers = {'User-Agent':'Monzilla/5.0'} #打开文件proxyip用来保存能用的代理IP self...原创 2019-11-18 16:03:07 · 801 阅读 · 0 评论 -
python爬取百度贴吧帖子内图片 -- xpath
需求进入某贴吧,爬取贴吧内每个帖子里的图片,不包含广告图片流程找某贴吧url规律,规律如下:http://tieba.baidu.com/f?kw={}&pn={}pn = (page-1)*50获取某贴吧首页(一级页面)每个帖子的链接的xpath表达式,如下://li[@class=“j_thread_list clearfix”]/div/div/div/div/...原创 2019-11-18 15:19:34 · 353 阅读 · 0 评论 -
python爬虫爬取ftp上压缩文件保存到本地 -- xpath
import requestsfrom lxml import etreeimport osclass TarenaCodeSpider(object): def __init__(self): self.url = 'http://code.tarena.com.cn/AIDCode/aid1907/13-Redis/' self.auth =('tarenacode','...原创 2019-11-17 21:17:11 · 2237 阅读 · 0 评论 -
python爬虫爬取链家二手房信息(xpath)
python爬虫爬取链家二手房信息 -- xpath需求流程详细代码需求将小区名称、厅室、面积、毛坯还是精装、楼层、建筑年代、板楼还是塔楼、总价和每平方米单价等信息爬取放入字典中流程查看想要的数据在网页源码中是否存在(确认是否为静态部分)找网页url的规律,规律如下:第n页:https://sh.lianjia.com/ershoufang/pgn/写xpath表达式右键查看页面...原创 2019-11-17 18:37:22 · 3555 阅读 · 0 评论 -
python爬取百度图片 --re
流程1.获取百度图片的urlhttps://image.baidu.com/search/index?tn=baiduimage&word=xxx正则右键百度图片中的图片元素,找到图片的链接(以.jpg结尾),然后右键源代码中查看是否存在该资源(确保是静态部分)根据源码中的图片标签写正则源码中图片标签html如下:"thumbURL":"https://ss3.bdsta...原创 2019-11-16 23:16:20 · 974 阅读 · 0 评论 -
增量爬取电影网站2级详情页面电影名称和下载链接
需求一级页面抓取:电影详情页链接二级页面抓取:电影名称和电影下载链接步骤确定响应内容中是否存在所需抓取数据:在源代码中看是否能搜到关键字找url规律二级页面url规律:第n页:https://www.dytt8.net/html/gndy/dyzz/list_23_n.html根据页面元素写正则//一级页面正则<table width="100%".*?<a c...原创 2019-11-16 17:40:36 · 24256 阅读 · 0 评论 -
爬取猫眼电影排行榜TOP100数据 --存入mysql
爬取猫眼电影网站电影排行榜TOP100数据 --存入csv流程流程确认页面是动态还是静态:在源码搜索关键字看是否能找到查看排行榜页面查询字符串中翻页的规律:规律为:offset=(page-1)*10进入页面源码:右键点击查看元素,复制下需求数据的标签块,如下<p class="name"><a href="/films/1228" title="天空之城" dat...原创 2019-11-15 17:41:27 · 1129 阅读 · 0 评论 -
爬取猫眼电影排行榜TOP100数据 --存入csv
爬取猫眼电影网站电影排行榜TOP100数据流程流程确认页面是动态还是静态:在源码搜索关键字看是否能找到查看排行榜页面查询字符串中翻页的规律:规律为:offset=(page-1)*10进入页面源码:右键点击查看元素,复制下需求数据的标签块,如下<p class="name"><a href="/films/1228" title="天空之城" data-act="b...原创 2019-11-15 14:04:08 · 1155 阅读 · 0 评论 -
python爬虫爬百度贴吧网页流程
实现步骤查看是否为静态页面右键 - 查看网页源代码 - 搜索数据关键字找URL查询字符串规律获取网页内容提取所需数据保存(本地文件、数据库)class TiebaSpider(object): def __init__(self): pass...原创 2019-11-14 20:00:23 · 322 阅读 · 0 评论 -
python 使用多进程爬取网页url放入redis列表中
把URL地址放到列表中知识点:1.生产者消费者模型2.爬虫3.自定义进程类,实例化对象,该对象可以当做父进程执行,类中的方法当做子进程来执行import redisfrom multiprocessing import Processimport timeimport randomclass XiaomiSpider(object): #用初始化函数创建redis对象 de...原创 2019-11-11 19:30:06 · 748 阅读 · 0 评论