python爬虫
凤舞无夜
这个作者很懒,什么都没留下…
展开
-
Ubuntu18.04安装mongodb
1)安装依赖sudo apt-get install libcurl4 openssl2)下载源码wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-ubuntu1604-4.2.8.tgz3)解压并且移动tar -zxvf mongodb-linux-x86_64-ubuntu1604-4.2.8.tgzmv mongodb-linux-x86_64-ubuntu1604-4.2.8 /usr/local/mon原创 2021-12-29 18:11:35 · 653 阅读 · 0 评论 -
python安装opencv
使用国外的安装速度慢,换成豆瓣源安装:pip install -i http://pypi.douban.com/simple opencv-python --trusted-host pypi.douban.com安装完毕后导入:import cv2原创 2021-11-02 16:54:25 · 2216 阅读 · 0 评论 -
Splash抓取动态页面
一、安装 环境:Ubuntu18.04 1)安装docker 2)下拉splash镜像sudo docker pull scrapinghub/splash 3) 启动sudo docker run -p 8050:8050 scrapinghub/splash 4)访问http://服务器ip:8050/验证二、基本使用import requestsdef splash_render...原创 2021-10-22 14:13:04 · 214 阅读 · 0 评论 -
安装crawlab后遇到的一些问题
进入docker命令行的方法:docker exec -i -t 容器id /bin/bash自动安装依赖:打包的文件中包含requirements.txt遇到问题:1)能够访问登录页面,使用初始密码登录时却报错解决办法:1、确保crawlab是最新版本2、修改docker-compose.yml文件,就用官网上的配置就行2)运行后报错找不到文件:解决办法:在打包爬虫代码时直接打包文件,不要连文件夹一起打包。打包好后上传。...原创 2021-06-01 11:01:40 · 1599 阅读 · 0 评论 -
正则匹配反斜杠
淘宝购物车截取一部分信息如下,可通过unicode解码成汉字:\"id\":\"1317026845822269866\",\"operations\":[{\"style\":\"t5\",\"text\":\"\u8FD8\u52692\u592912\u65F6\",\"type\":\"operation\"},{\"id\":\"confirmGood\",\"style\":\"t3\",进行正则匹配时,使用 \\\\ 可以匹配反斜杠 \...原创 2020-10-21 22:06:32 · 641 阅读 · 0 评论 -
爬虫碰到谷歌验证码的一些解决思路
最近在写一个国外某电商网站的刷单脚本,在注册账号这一步时碰到了谷歌验证码。一、避开谷歌验证码尽可能的使部署环境稳定,同时做好伪装。比如使用PPTP拨号换ip,可以通过访问whoer.net来查看ip是否伪装成功。二、人工通过谷歌验证码后再用selenium接管在第一次注册时人工验证,然后再交给selenium接管,之后通过该浏览器窗口再次注册不会出现验证码,但缺点是不能关闭浏览器也不能更换ip。三、进行语音验证谷歌验证码可以通过图片验证或者语音验证,目前没找到通过图片验证的方法,可以原创 2020-07-08 11:14:13 · 2330 阅读 · 0 评论 -
在linux上安装谷歌浏览器并且使用selenium操控
1)使用命令下载wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb2)使用dpkg命令进行安装sudo dpkg -i google-chrome-stable_current_amd64.deb3)如果遇到报错,请执行sudo apt-get install google-chrome-stablesudo apt-get -f install再次执行第二步。4).原创 2020-06-15 17:11:09 · 558 阅读 · 0 评论 -
requests使用xpath返回空列表
在浏览器上使用xpath可以提取到想要的内容,但将xpath放入到代码中却返回空列表。将网页html抓下来后也没发现结构发生变化或者tbody之类的,于是采用正则表达式来提取内容。想要提取的a.html:代码如下:with open("a.html","r") as r: html = r.read()pattern = re.compile(r"<span>...原创 2019-12-23 18:40:36 · 1157 阅读 · 0 评论 -
爬取亚马逊评论的视频url
在抓取亚马逊评论详情时,其它的数据都能准确抓取到,但视频的url却一直返回空列表。Xpath经过反复确认也没有任何问题,最后发现是通过requests抓取到的html的结构发生了变化。 浏览器上的: 抓取到的html: 将xpath进行相应修改就可以成功抓取了!...原创 2019-11-26 09:44:38 · 1155 阅读 · 0 评论 -
爬虫使用随机 User-Agent 时遇到的坑
问题:使用 fake_useragent 生成的随机 User-Agent 请求亚马逊网站的时候,在对爬取到的页面使用 xpath 进行数据提取时,有时候正常返回,有时候返回的是一个空列表。原因:生成的一部分User-Agent 去请求的时候,其实并没有请求成功,返回的是输入验证码的页面。解决办法:可以建立一个随机ua池,将有效的User-Agent 放到代理池中, 需要使用 ...原创 2019-09-23 11:45:28 · 986 阅读 · 1 评论