爬虫
EEEEEEcho
这个作者很懒,什么都没留下…
展开
-
使用Fiddler抓取夜神模拟器Android7.1版本中的app的包
1.Fiddler下载https://www.telerik.com/download/fiddler然后傻瓜下一步2.夜神模拟器下载https://www.yeshen.com/我下的是最新版的安卓7.1内核的,所有的坑也出在这3.配置Fiddler打开tools -> options勾选后之后,点击那个Actions选择Export Root Certificate To Desktop(不方便截图) 导出证书到桌面。然后再设置一下这个地方:之后重启Fiddler4.原创 2020-11-07 23:49:30 · 3605 阅读 · 8 评论 -
python异步协程爬虫的简单案例
1.协程初步协程就是一个函数,但是满足以下特征:1.有I/O依赖的操作,2.可以在进行I/O操作时暂停,3.无法直接执行它的作用就是对有大量I/O操作的程序进行加速Python协程属于可等待对象,可以在其他协程中被等待。说白了,就是在一个有I/O操作的线程等待I/O执行时,去切换下一个线程运行。小栗子import asyncio# async 标记函数是异步函数async def net(): return 11async def main(): # net() 没原创 2020-08-24 11:34:50 · 720 阅读 · 0 评论 -
Python多线程与多进程爬取豆瓣读书
大体思路是这样的每个分类用多进程处理,这里开3个进程,然后每个分类中的详细内容,在进程中开3个线程进行处理,因为不是CPU密集型,所以多线程还是高效的,下面只是一个范例,后续可以继续添加功能。看代码吧import requestsfrom bs4 import BeautifulSoupimport multiprocessingfrom concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor# 使用进程池处理大类,原创 2020-08-17 22:52:45 · 562 阅读 · 0 评论 -
SQLALchemy基础操作
直接上代码。代码里有注释。# SQLAlchemy 是python编程语言下的一款ORM框架,该框架建立在# 数据库API之上,使用关系对象映射进行数据库操作,简而言之:将对象# 转换为SQL,然后使用数据API执行SQL并获取执行结果# SQLALchemy中的数据类型与python的对应信息# Text -> Long str# Boolean -> bool# BigInteger -> int# Date -> Datetime.data# DateTim原创 2020-08-06 20:49:04 · 880 阅读 · 1 评论 -
python requests库基本使用介绍
Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。1. 发起基本get请求并传入参数import requestsdef get_html(url): # 这个传入的参数是拼接在url中的一组参数 param = {"wd": "c++"} html = requests.get(url,params=p原创 2020-07-28 09:23:35 · 456 阅读 · 0 评论 -
Scrapy抓取网易新闻
使用scrapy实现对网易新闻的抓取。详情请看注释。定义要抓取的字段# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass NewsItem(scrapy.Item): # define the fie.原创 2020-07-23 19:37:29 · 225 阅读 · 0 评论 -
python爬取实习僧
实习僧的网页解析很简单,重点在于字体的加密破解。它的字体加密是使用自定义字体的。然后需要找到对应字体,然后通过编码为utf-8的形式来获取每个数字和相应字节的对应关系,使用这个对应关系来对相应的编码进行替换就行了。具体看代码。import requestsfrom bs4 import BeautifulSoupheaders = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT原创 2020-07-20 19:03:12 · 676 阅读 · 0 评论