爬虫
以梦为马越骑越傻
python
展开
-
爬取网络视频-未完待续
'''下载电影https://www.ai66.cc/zhanzhengpian/14490.html'''import osimport timeRESPATH = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))),'res')import requestsfrom urllib import parsefrom requests.packages.urllib3.exceptions im.原创 2020-12-13 02:23:37 · 13570 阅读 · 0 评论 -
fiddler+uiautomator2+夜神模拟器+mitmdump+weditor+mysql爬取抖Xapp用户信息
无不良目的,学习使用。一、工具介绍fiddler:用于查看抖音个人信息接口,Tool-Connections-port配置监听端口uiautomator2:操控夜神模拟器,模拟操作抖音,打开抖音,去掉提示信息,点击个人中心,返回,滑动,重复操作。mitmdump:抓取模拟器请求数据,对请求url进行过滤,过滤出通过fiddler查到的接口,并对数据解析入库。启动命令:mitmdump -p 8888 -s decode_douyin.py夜神模拟器:需要配置桥接,配置网络ip和端口和fi原创 2020-12-09 17:35:47 · 1107 阅读 · 0 评论 -
uiautomator2+Weditor+python操作考研帮
import uiautomator2 as u2class HandleKaoyanbang(object): def __init__(self, serial=""): # 当前是通过usb的方法来连接移动设备的 if serial: self.d = u2.connect_usb(serial=serial) else: self.d = u2.connect() self.原创 2020-12-09 01:30:00 · 538 阅读 · 0 评论 -
【atx】一,atx的安装过程
1,安装atx。pip install atx2,安装uiautomator2。pip install --pre --upgrade uiautomator23,初始化操作。python -m uiautomator2 init,这个目的是为了在手机安装控制app,打了这个命令之后,要授权给手机安装apk文件。4,打开网页版的编辑器python -m weditor,然后就会进入一个用vue.js+boostrap写的网页。5,查找到安卓...转载 2020-12-08 23:49:30 · 3184 阅读 · 0 评论 -
如何解决夜神模拟器连不上adb的问题
今天要搞一个安卓的项目。由于电脑系统是年前刚刚重装的,系统里啥都没有,于是临时安装了一下android studio 2.2,然后又装了一个夜神模拟器。工程打开后,编译通过了,于是打开夜神模拟器,想要通过模拟器进行模拟时,结果AS一直提示找不到模拟器。于是只好重启AS,重启模拟器。结果还是不行。再次重启,貌似可以了。但是,下午再次重启之后,又不行了。反反复复折腾了好几次,基本没几次能顺利连接到模拟器的,每次都要折腾很久。好不容易晚上有点空了,于是静下心来自己研究了一下,看看到底是谁在捣鬼。1、关转载 2020-12-08 22:29:35 · 313 阅读 · 0 评论 -
安装配置mitmproxy抓包软件并运行python脚本
一、首先,官网下载并安装mitmproxy:https://mitmproxy.org/然后,用pip安装mitmproxy二、设置手机端口,我这里用的夜神设置-wlan-左键长按wiredssid-修改网络,修改代理ip和端口三、电脑本机启动,配置对应的端口和python脚本mitmdump -p 8889 -s mitmdump_test.py# mitmdump连接python联调# 日志模块from mitmproxy import ctxdef request(fl原创 2020-12-08 18:30:07 · 931 阅读 · 0 评论 -
如何在浏览器F12调试的状态下找到想要的JS文件
谷歌浏览器 F12 点击 source如果知道js 路径可以再右边的文件夹中找出如果不知道js 路径 只是知道文件名ctrl + P输入文件名即可转载 2020-12-07 00:44:43 · 3614 阅读 · 0 评论 -
scrapy crawlspider 增量和全量爬取链家网
学习目的,全量通过大地址+小地址+金额段来取分页数据,增量数据用链家提供的成交信息,标题爬一次,详情爬一次,话不多说,直接上代码遇到的问题:链家网不定期链接会出现301,所以mate传递就会出问题,暂时未解决。这里绕过这个问题,没用matecrawlspider:# -*- coding: utf-8 -*-from urllib import parsefrom scrapy import Requestfrom scrapy.linkextractors import LinkEx原创 2020-12-01 12:33:20 · 1867 阅读 · 0 评论 -
scrapy 爬取链家二手房数据
学习使用只爬取展示的展示的3000条数据spider:# -*- coding: utf-8 -*-from urllib import parseimport scrapyfrom scrapy import Requestfrom Lianjia.items import LianjiaItem,DangdangItemLoaderclass LianjiaJobSpider(scrapy.Spider): name = 'lianjia_job' allowe原创 2020-11-30 13:48:46 · 3239 阅读 · 5 评论 -
requests爬取链家网房源数据
无不良目的,纯学习策略:1、增量爬取二手房成交数据,最多3000条,所以每天直接增量爬取即可。2、老数据有几种方式,我用的并不是最优的,先从安居客爬取所有小区入库(安居客反爬比较强,锁也是增量爬取),链家查询每个小区成交房源数据。3、还有更好的策略,只是练习,所以没有完善,总共5万多数据,抓了4万。代码:增量代码:import requestsimport sysimport ossys.path.append(os.path.dirname(os.path.dirnam原创 2020-11-28 10:02:29 · 734 阅读 · 0 评论 -
scrpy.Selector xpath循环时一直取第一个元素的问题
url = "https://xa.lianjia.com/chengjiao/pg{}/" r = self.web_requests.get(url.format(1)) selector = Selector(text=r.text) ul = selector.xpath("//ul[@class='listContent']/li") for li in ul: title = li.xpath('//div.原创 2020-11-27 10:15:37 · 1023 阅读 · 0 评论 -
selenum模拟登陆知乎(重点倒立文字)
1、打开网页2、点击到账号密码登录3、判断验证码是否出现4、输入账号密码5、对验证码图片下载6、通过zheye对图片进行分析获取倒立文字的坐标7、网页对图片储存缩放一半,坐标进行处理8、通过move和click进行点击倒立文字坐标9、登录# -*- coding: utf-8 -*-import osimport sysfrom selenium import webdriversys.path.append(os.path.dirname(os.path.di原创 2020-11-18 19:03:17 · 248 阅读 · 1 评论 -
scrapy本地调试网页
有时使用爬虫的时候会把网页抓下来然后本地调试,所以今天写一篇博客记录一下整个流程:目录1.抓取网页保存到本地2.离线调试1.抓取网页保存到本地在Scrapy爬虫类的parse函数中使用def parse(self,response):def saveHtml(file_content):with open(“保存路径/test.html”, “w”) as f:f.write(file_content)# test中就是html网页的文本信息text = response.texts转载 2020-11-18 10:53:52 · 331 阅读 · 0 评论 -
python 爬虫框架scrapy 入门 爬取博客园新闻(代码)
1、代码jobbole.py写爬取策略,2、settings.py 配置pipelines、配置图片下载、配置是否遵循robote协议、数据库配置等3、pipelines.py 主要是配置数据存储操作4、本来用的xpath 对网站解析,但是循环解析时发现每次解析的都是第一条,不知道是什么问题,最后这部分代码换成css选择器就好了。一、jobbole.py(主要写爬取策略)# -*- coding: utf-8 -*-import jsonimport osimport rei.原创 2020-06-27 23:54:14 · 496 阅读 · 0 评论 -
python 爬虫框架scrapy 基础入门笔记(后续跟基础入门代码)
一、scrapy安装和配置1、pip install scrapy很多安装容易出错的包,可以直接下载安装https://www.lfd.uci.edu/~gohike/pythonlibs2、scrapyweb抓取框架,底部异步io框架,事件循环+回调模式。尽量不要使用同步io。3、常见命令:scrapy startproject AricleSpider 创建scrapy项目4、目录结构spidersitemsmiddlewarespipelinesse...原创 2020-06-27 23:47:29 · 361 阅读 · 0 评论 -
xpath基本操作用法
查询python lxml库用法:lxml.de/ from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li>原创 2018-10-07 12:59:20 · 231 阅读 · 0 评论 -
python协程下载千家粗粮王美食图片,进程显示下载进度
import multiprocessingimport osimport reimport timeimport geventimport requestspics_url = []names = []def get_data(): global pics_url global names for i in range(1, 16): ...原创 2018-10-18 20:19:48 · 179 阅读 · 0 评论 -
使用Fiddler抓取在夜神模拟器安装的软件的包
一、设置Fiddler代理1.点击Tools-Fiddler Options进入Fiddler Options页面2.点击Connections,将Fiddler listens on port设为8888,勾选Allow remote computers to connect3.点击OK,代理设置完成,重启Fiddler配置生效。二、设置夜神模拟器代理1.点击设置,进入到wi...原创 2018-10-10 15:30:39 · 4113 阅读 · 0 评论 -
爬虫一、爬虫基本概念、基本请求方式和基本库
1. 爬虫的用途 爬去数据用做网站展示 爬去数据用来为大数据或者人工智能服务 2. 什么是爬虫?模拟浏览器发送请求,获取响应的程序3. 爬虫的分类3.1 通用爬虫搜索引擎的爬虫,爬去整个互联网的数据3.2 聚焦爬虫针对特定网站专门写的抓取数据的程序聚焦爬虫的流程 准备url列表 拿到一个url发起请求,获取响应 响应提取...原创 2019-01-12 15:04:24 · 260 阅读 · 0 评论 -
爬虫二、response、cookie、代理ip使用
1. Response常用的属性 response.headers 响应头 rsponse.request.headers 请求头 response.status_code 状态码 response.request.url 请求的url response.url 响应的url 2. 带headers的请求headers = {"User-Ag...原创 2019-01-12 15:06:51 · 526 阅读 · 0 评论 -
mongodb大数据查询通过skip会非常慢的问题
项目当中模拟插入了120W条数据,在同一个文档当中单纯查询数据的速度还不错,主要是对查询的文档字段添加了索引,但是对查询结果的前台分页确有问题。具体来说是不设置任何查询条件的时候,会查询出来将近120W条满足条件的结果,使用mongodb的limit()和skip() 来取出来 第一页前20条数据,这样在后台的java程序当中只是这20条数据占用内存。代码具体形式类似于用mongodb客户端...转载 2019-08-13 18:35:40 · 5674 阅读 · 4 评论 -
20181009python生成器/yield协程/gevent写简单的下载器
1、生成器:'''第二种生成器'''# 函数只有有yield存在就是生成器def test(i): while True: i += 1 res = yield i print(res) i += 1 return aa def main(): t = test(1) # 创建生成器对象...原创 2018-10-12 08:32:06 · 181 阅读 · 0 评论