Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号，100行代码撩妹，用技术脱单...

weixin_39760368

于 2020-11-21 21:50:00 发布

阅读量1.5k

点赞数 1

文章标签： Python爬取网站用户手机号

前言：

其实这个项目没什么难度，稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来，但是正是这也原因，也间接证明现在网络很多安全问题的存在，简单的说就是这个网站的程序员偷懒，让用户的信息暴露在网上。

好了，言归正传，我们直接进入文章的主题。

既然我们要准备用Python爬虫，那么首先需要做好Python爬虫的准备：

python2.7
库文件(xlwt，urllib2，BeautifulSoup4，xlrd)

安装库文件的方法：

最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的：

安装库文件的代码：

在这段代码中，pip install 指的是上面的库文件，在后续的代码中不一定要都用，只要上面的，这样如果之后出什么错，继续pip imstall就行了。

然后看一下我们要爬取的网站结构，也就是登录用户的密码规则：

可以看到这是顶岗实习管理系统，所以说是针对大三大四的学生或者是已经毕业的了，从图中可以看到并没有需要输入验证码的环节，而规则则是用户名==密码，也就是说用户名和密码相匹配才能成功登录

符合条件

然后看一下信息，上面的是符合标准的，毕竟不能找那种毕业十多二十年的学生，别人估计孩子都有了......不要在意这些马赛克，朦胧美一直是我的追求。

具体的爬虫思路我把它分为四个步骤

模拟登陆制作学号的规则信息查询和爬取存入表格模型

模拟登陆：

需要登陆才可以访问网站的信息
用脚本访问一个网页时，需要cookie存贮我们的个人信息

python 中cookie维持会话访问：

具体的模拟登陆代码：

然后是制作学号的规则：

之后是最关键的一个步骤，爬取用户信息，这里需要用到第三beautifulsoup库：

然后把爬取到的信息写入到表格里面，这里在写的时候因为编码的问题，不能写入中文：

这里需要注意的是，如果直接整合上面的代码然后运行的话，爬取速度会很快，可能会被网站服务器发现从而被封IP，所以我们需要添加延迟访问：time.sleep(1)，设置间隔然后爬取，避免给此网站带来不好的影响，防止被封IP。

具体的代码实现如下：

好了，到了这一步项目基本就已经大功告成了，来看一下爬取的结果：

有图有真相，避免无脑的喷子，获取到的都是电话号码和QQ号码，可不要用这些东西去做坏事哦，毕竟我们主要还是学习里面的技术，有案例只是让我们学起来不那么无聊。

最后分享我准备的python学习资料，给那些正在学习python的同学，或者准备学习python的同学，关注，转发，私信小编“01”即可免费获取！

weixin_39760368

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号，100行代码撩妹，用技术脱单...

前言：其实这个项目没什么难度，稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来，但是正是这也原因，也间接证明现在网络很多安全问题的存在，简单的说就是这个网站的程序员偷懒，让用户的信息暴露在网上。好了，言归正传，我们直接进入文章的主题。既然我们要准备用Python爬虫，那么首先需要做好Python爬虫的准备：python2.7库文件(xlwt，urllib2，Beautiful...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。