![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python网络爬虫
11 + 17 = 28
这个作者很懒,什么都没留下…
展开
-
破解bilibili滑块验证码
其实我并没有成功,想要模拟人工滑动轨迹骗过验证太难了,我试了好多参数,每次都被拒绝了。我琢磨着是不是要考虑用微积分去设计运动轨迹。。。 思路其实很简单,分别获取完整图片和不完整图片,比较图片的缺口,再将滑块滑到缺口处即可。若要说存在难度的地方,或许就是中间执行了一步js。 如果有哪位大神成功模拟滑动轨迹,烦请赐教。。。 不多说了,上代码。 import time from PIL ...原创 2020-04-01 13:16:20 · 409 阅读 · 0 评论 -
多线程多进程爬取房天下
房天下的爬取本身没有技术难点,不做过多讲解。只讲一讲在爬取过程中遇到的反扒问题。 房天下设置了页面的跳转作为反扒措施,即:在访问网页时会进行多次跳转才会进入到真正的目标页面。因此我编写了find_real_url来解决这个问题。在编写程序时,通过观察跳转页面的网页源码,可以比较容易的观察到跳转网页的源码中存在新的url,因此在爬取时通过正则表达式获取新的url并访问,直到目标页面中的目标元...原创 2020-03-17 20:02:45 · 401 阅读 · 0 评论 -
爬取快代理免费代理是否可用
判断代理是否可用的核心在于requests的proxies与timeout两个参数。 from pyquery import PyQuery as pq import requests headers = {'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, lik...原创 2020-02-29 23:39:45 · 279 阅读 · 0 评论 -
异步爬取豆瓣读书
异步爬取豆瓣读书并存储于mysql中 from bs4 import BeautifulSoup import aiohttp import asyncio import requests from sqlalchemy import create_engine, Column, String, Integer, ForeignKey, Table from sqlalchemy.orm impo...原创 2020-02-28 19:07:09 · 232 阅读 · 0 评论