![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 53
qq_31258245
中南大学学生
展开
-
Python爬虫之BeautifulSoup库函数解析
Python爬虫之BeautifulSoup库函数解析简介Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。安装安装Python的包管理器pip,然后执行以下命令pip install beautiful原创 2017-11-29 00:12:05 · 3613 阅读 · 0 评论 -
Python爬虫之表单和登录窗口采集
Python自带的urllib库实现了HTTP基本的GET功能,当我们想要实现比GET更多的事情时,那么就需要去寻找支持Python标准的第三方库了。 Requests库可以成为你的选择,它可以处理复杂的HTTP请求,cookie,header等内容,是一个第三方库。 可以使用Python包管理器,执行命令pip install requests安装Requests库。 浏览器的地原创 2017-12-08 13:04:13 · 5270 阅读 · 1 评论 -
Python爬虫之处理带Ajax、Js的网页
Python爬虫之处理带Ajax、Js的网页 现在很多网站的都大量使用JavaScript,或者使用了Ajax技术。这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化。如果处理这种网页是还用requests库或者python自带的urllib库那么得到的网页内容和网页在浏览器中显示的内容是不一致的。那么我们这样就采集不到想要的结果。 为了解决这个问题,可以使用Se原创 2017-12-08 13:28:50 · 15636 阅读 · 0 评论 -
Python爬虫之从网站图片中抓取文字
本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。 程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。 实现代码如下:import time原创 2017-12-08 15:55:23 · 6719 阅读 · 1 评论 -
Python爬虫之下载媒体文件
Python爬虫之下载媒体文件在网络上存储媒体文件有两种方式:存储媒体文件的URL链接,把媒体文件下载到主机。 对于存储URL这种方式,既有优点也有缺点。优点:爬虫运行的很快,耗费流量少。 节省存储空间。 降低服务器主机负载。 代码编写更简单。缺点:内嵌在你网站或应用中的外站的URL链接是盗链,如果外站加了防盗链措施,那么就会引来麻烦。 如果链接的内容被改变后,你使用的链接很可能出乎意料的原创 2017-12-02 10:08:24 · 1108 阅读 · 0 评论 -
Python爬取特朗普就职演讲稿,使用ngram模型进行数据清洗
利用Python爬取特朗普英文就职演讲稿,并使用ngram模型进行数据清洗处理 互联网络上数据十分丰富,我们可以利用网络爬虫技术轻松获取到这些数据,但是获取的数据往往不像我们学习爬虫时那样样式规范的数据。在网络数据采集中,不可避免地会遇到样式不规范的数据,而且无法对数据集进行挑剔,所以掌握数据清洗的方法十分必要。 本文主要内容是利用Python从网页上爬取格式混乱的英文讲稿,然后将数据进行清原创 2017-12-05 13:52:52 · 1878 阅读 · 1 评论 -
教务系统抢课程序的思路
最近在学习Python爬虫处理表单登录的知识,就想到了拿学校的教务系统来试手。经过调查发现学校的教务系统登录有如下特点:有两个登录页面,一个页面是需要输入账号密码以及四位字符验证码,另一个页面只需要账号密码不需要验证码。两个登录页面表单提交的地址不一样,但是都需要encoded字段,然而encoded是经过js加密处理得到的复杂字符串。需要验证码的那个登录页面是当你提交表单的时候会先向服务器发原创 2017-12-08 13:54:03 · 17991 阅读 · 0 评论