爬虫
一只小coder
额,关注的人被清零了,管理员大大好狠,一个都没留
展开
-
python requests, py2exe打包后无法爬取https
最近出现一个很诡异的问题,在pycharm中爬取https很正常,但是打包成exe后,就无法运行。找了半天,最后解决方法是:html=s.request('GET',link,verify=False).content关闭验证。添加:verify=False 即可。 ...原创 2018-08-26 07:31:06 · 807 阅读 · 0 评论 -
python+selenium实现脉脉网站爬取用户朋友圈,自动评论
这次尝试的网站是脉脉,实现的效果是,自动登录后,爬取“发现”页面返回的其他人发的状态。然后自动评论。评论的时候,先看看有没有最热评论,如果有最热评论,就复制内容,自己也发一条一样的。如果没有,就随便发,比如“支持下”。 1. 自动登录:这里就是用的selenium接口,找到用户号和密码的input框,自动填入后点击登录,如果自动登录失败,可以手动登录,然后控制台,回车下。 de...原创 2019-01-09 14:48:00 · 4128 阅读 · 9 评论 -
监控日本某卖衣服网站新品发布,第一时间邮件通知
网址:http://matenrow.net/17.html 需求是,当有新品发布时,能立即收到邮件提醒。因为抢单的人很少,所以只需要完成提醒就行。思路就是,利用python的requests库间隔10秒去获取下网页内容,检测商品列表中第一个商品的商品编号是否改变,如果改变就说明是新品,需要发送邮件。封装了下worker类,主要函数在check中:import reque...原创 2019-01-08 14:50:48 · 2332 阅读 · 8 评论 -
批量下载“爱书音”有声小说mp3
最近在听阿陈播的二号首长,非常过瘾,1~3部全听完了,发现后续还有高手过招。不过是在爱书音网页上。不过一共122集,于是想实现把这些的音频mp3都下载到手机上听。分析了下 :比如第18集,url是“https://www.ishuyin.com/player.php?mov_id=19248&look_id=18&player=down”打开每集的页面,中间有个...原创 2018-12-24 17:49:49 · 10350 阅读 · 4 评论 -
GO+Selenium批量关注各大网站实战 3 (开发者头条号)
这次实战的网站是开发者头条。主要实现的功能有3个, 批量关注好友,批量收藏文章,批量订阅独家号。先看关注好友:网站用户的个人主页: 可以看出,地址路由采用的是最后的id递增。(这在网站开发中很普遍,我猜想这个id也正是他们数据库中的id)。这样的路由有个致命弱点,通过for循环,直接就能从头扫到尾。接下来分析,点击关注后,网络请求:对某个用户关注,只...原创 2018-11-22 14:02:40 · 1743 阅读 · 11 评论 -
GO+Selenium批量关注各大网站实战 2 (今日头条,批量关注)
作为第一个练习,我选择的是今日头条批量关注好友这个功能。今日头条每天关注量有200人限制,满了再点击关注,就会提示已达上限。所以我刷了几天,现在是4600个人~我们先来讲讲思路:1. 登录自己的头条号2. 打开头条号的粉丝列表页:3. 获取关注按钮,然后执行点击事件4. 由于列表初始化只会渲染出来20个人,加载更多,需要下拉滚动条到最底部,或者按键“END”...原创 2018-11-15 15:22:11 · 6178 阅读 · 25 评论 -
GO+Selenium批量关注各大网站实战 1 (基础+demo)
selenium相信大家都不陌生,从最开始的selenium core到现在的RC,利用selenium能干的事情也越来越多。也用go+selenium写了一些小工具,测试了一下各大网站关注好友的接口~这里先介绍下用到的库:https://github.com/tebeka/selenium接下来可以试试先运行提供的example:作者提供的example是在linux下...原创 2018-11-13 13:46:40 · 8250 阅读 · 21 评论 -
python requests更换代理适用于IP频率限制
有些网址具有IP限制,比如同一个IP一天只能点赞一次。解决方法就是更换代理IP。从哪里获得成千上万的IP呢? 百度“http代理”可获得一大堆网站。比如某代理网站,1天6元,可以无限提取。把提取的IP,保存到txt文件中。写一个方法,读取文件,存入数组中def getProxysFromFile(): with open("proxy.txt", ...原创 2019-03-13 13:37:06 · 6952 阅读 · 9 评论