- 博客(5)
- 收藏
- 关注
原创 python+selenium 笨方法模拟登陆京东
今天和京东斗智斗勇了一天,失败了,记录下过程 验证码图片的处理 京东的验证码的完整图实际上只有10张(2018.01.25),我直接把10张图给截出来了,由于PS不过关,我是选的缺口尽量靠右下方的图,然后把滑块移动到缺口处截图。方法基本笨,但基本能行。 效果图如下 验证码原图的匹配 现在手头有10张验证码原图,在登陆验证时,需要把待滑动的图与原图匹配起来,如需要将下面的带缺口的图与上面的图匹配。...
2019-01-26 14:53:34 1914 3
原创 python + selenium 模拟登陆b站
文章目录截取验证码图片识别缺口模拟滑动爬坑代码相关优化参考资料 截取验证码图片 首先将鼠标移至小块处,会出现滑动后的图片(即原图) 利用selenium找到验证码图片所在元素 这样,我们就可以截取整个网页,再利用图片元素返回的位置和宽高,裁切出验证码图片并保存 点击小块并按住不放,出现带缺口的图片 通过同样的方法,可以利用selenium裁剪出带缺口的验证码 识别缺口 具体想法,比较两张图片...
2019-01-24 15:35:14 3539 9
原创 selenium+pyquery爬取京东商品
踩坑 在使用pyquery时,对于id或class类都可以成功选取,但是直接使用标签名时选区时一直返回空值,获取不到节点。原来是因为pyquery默认解析后的文档是xmlns格式,这造成了无法按标签名称去选取 解决方法 html = browser.page_source doc = pq(html, parser = ‘html’) from selenium import webdriver ...
2019-01-22 00:53:22 522
原创 分析Ajax爬取今日头条,下载图片
这几天打算趁着寒假时间把之前学的爬虫捡回来,发现现在今日头条改了一丢丢。与崔庆才老师有关分析Ajax爬取今日头条街拍美图已经有点出入。 获取搜索结果的url一样的,这里就不说了,主要是在搜索结果页面中找到图片所在网页有点不同。 以搜索我老婆长泽雅美图集为例, 今日头条搜索长泽雅美 在获取到第一个搜索结果的url后 https://www.toutiao.com/a65530079798456489...
2019-01-18 21:31:03 959
原创 python爬取历史天气数据
爬取历史天气数据 def get_one_page(url): ''' 获取网页 ''' print('正在加载'+url) headers={'User-Agent':'User-Agent:Mozilla/5.0'} try: response = requests.get(url,headers=headers) if r...
2019-01-16 22:29:49 4143 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人