自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python+selenium 笨方法模拟登陆京东

今天和京东斗智斗勇了一天,失败了,记录下过程 验证码图片的处理 京东的验证码的完整图实际上只有10张(2018.01.25),我直接把10张图给截出来了,由于PS不过关,我是选的缺口尽量靠右下方的图,然后把滑块移动到缺口处截图。方法基本笨,但基本能行。 效果图如下 验证码原图的匹配 现在手头有10张验证码原图,在登陆验证时,需要把待滑动的图与原图匹配起来,如需要将下面的带缺口的图与上面的图匹配。...

2019-01-26 14:53:34 1914 3

原创 python + selenium 模拟登陆b站

文章目录截取验证码图片识别缺口模拟滑动爬坑代码相关优化参考资料 截取验证码图片 首先将鼠标移至小块处,会出现滑动后的图片(即原图) 利用selenium找到验证码图片所在元素 这样,我们就可以截取整个网页,再利用图片元素返回的位置和宽高,裁切出验证码图片并保存 点击小块并按住不放,出现带缺口的图片 通过同样的方法,可以利用selenium裁剪出带缺口的验证码 识别缺口 具体想法,比较两张图片...

2019-01-24 15:35:14 3539 9

原创 selenium+pyquery爬取京东商品

踩坑 在使用pyquery时,对于id或class类都可以成功选取,但是直接使用标签名时选区时一直返回空值,获取不到节点。原来是因为pyquery默认解析后的文档是xmlns格式,这造成了无法按标签名称去选取 解决方法 html = browser.page_source doc = pq(html, parser = ‘html’) from selenium import webdriver ...

2019-01-22 00:53:22 522

原创 分析Ajax爬取今日头条,下载图片

这几天打算趁着寒假时间把之前学的爬虫捡回来,发现现在今日头条改了一丢丢。与崔庆才老师有关分析Ajax爬取今日头条街拍美图已经有点出入。 获取搜索结果的url一样的,这里就不说了,主要是在搜索结果页面中找到图片所在网页有点不同。 以搜索我老婆长泽雅美图集为例, 今日头条搜索长泽雅美 在获取到第一个搜索结果的url后 https://www.toutiao.com/a65530079798456489...

2019-01-18 21:31:03 959

原创 python爬取历史天气数据

爬取历史天气数据 def get_one_page(url): ''' 获取网页 ''' print('正在加载'+url) headers={'User-Agent':'User-Agent:Mozilla/5.0'} try: response = requests.get(url,headers=headers) if r...

2019-01-16 22:29:49 4143 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除