python + 爬虫
兴趣爱好,爬虫经验分享、学习
lzf2284466
白纸一张,仍需努力~
展开
-
Python cx_Oracle连接报错 :oci.dll is not the correct architecture
之前cx_Oracle连接没有问题,突然有一天就报了DPI-1047: 64-bit Oracle Client library cannot be loaded: “D:\OraHome92\bin\oci.dll is not the correct architecture”,然后就开始上网百度了资料,基本的解决思路都是使用的oci.dll版本为32位,要换成64位。顺着以上思路,我下载了instantclient 64位(百度搜索,可以下载得到),然后添加环境变量,如图所示,这里记得,位置要在O原创 2020-07-11 18:56:27 · 2382 阅读 · 0 评论 -
python爬虫示例二:selenuim + requests升级版requestium实现自动登录获取网页cookie信息并爬取数据
selenuim + requests=requestium实现自动登录获取网页cookie信息,然后通过此cookie进行网页的数据爬取不多说其他的,直接上代码,另外提几个注意点:(1)有些网站设置了反爬机制,我们需要手动添加headers,加入user-agent参数,详细请看代码(2)另外使用requestium集成的selenium组件,用的是谷歌浏览器,大家需要下载,同时还需要下载一个webdriver驱动插件,要注意自己的谷歌浏览器和webdriver驱动版本的对应from reques原创 2020-05-25 18:50:05 · 2949 阅读 · 0 评论 -
python爬虫示例一:selenuim + requests实现自动登录获取网页cookie信息并爬取数据
由于公司需要每周统计各系统使用量数据,其中一些系统是需要登录系统获取,过程十分繁琐,因此在网上查找办法,通过实践得出以下解决方案:采用selenuim + requests实现自动登录获取网页cookie信息,然后通过此cookie进行网页的数据爬取。不多说其他的,直接上代码,另外提几个注意点:(1)有些网站设置了反爬机制,我们需要手动添加headers,加入user-agent参数,详细请看代码(2)另外使用selenium组件,用的是谷歌浏览器,大家需要下载,同时还需要下载一个webdriver原创 2020-05-25 18:27:55 · 1604 阅读 · 0 评论 -
Python破解反爬虫学习
破解反爬虫一 伪装浏览器二 IP代理由于有很多企业为了减轻网页负荷,抵御爬虫爱好者,设置了许多方法阻挡爬虫,本人也只是个菜鸡,目前只会两种方法绕过反爬虫机制,本文也就只列出这两种方法。一 伪装浏览器由于爬虫多直接由python脚本直接访问网页,部分企业也就由此建立了识别来访者是否为Python脚本访问,所以,我们可以使用伪装浏览器的方式对此种防御方式进行破解。下面展示一些 内联代码片。// pythonfrom urllib.request import urlopenfrom urllib转载 2020-05-21 15:42:45 · 286 阅读 · 0 评论 -
RPA机器人、python、爬虫、自动化
凡事都有个源头,从RPA机器人——>python——>爬虫——>自动化,一步步的前进,都源于公司的一个需求:实现自动找到电脑存储的号码excel文件,将excel里边的号码按靓号规则按进行归类,写入新得excel文件里。当时的这个需求,公司请了RPA的厂家来开发,当然,项目最后没能完成,很可惜,没能看到这个项目落地。但,这却是我的一个开始,有一个专门负责项目的大佬,和我们共处一个工作环境和用餐,这期间和他探讨了许多,也让我见识到了新得领域:RPA( Robotic Process Auto原创 2020-05-20 14:08:52 · 2390 阅读 · 0 评论