爬虫
文章平均质量分 80
沉住气CD
这个作者很懒,什么都没留下…
展开
-
Python爬虫中HTTP和HTTPS的杂七杂八
HTTP协议(HyperText Transfer Protocol,端口号80)即超文本传输协议,是一种发布和接收HTML页面的方法。HTTPS(HyperText Transfer Protocol over Secure Socket Layer,端口号443)是HTTP的安全版本,加入了SSL层。SSL(Secure Socket Layer)即安全套接层,主要用于web的安全传输...原创 2018-09-28 19:54:45 · 1756 阅读 · 0 评论 -
Python爬虫中的Requests模块
相比较Python标准库中的urllib模块来说,Requests模块的API使用起来更加友好,其继承了urllib的所有特性,并且支持HTTP连接保持和连接池,支持cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。 开源地址:https://github.com/kennethreitz/requests。用到的同学去给个...原创 2018-09-28 21:33:27 · 349 阅读 · 0 评论 -
Python爬虫中的XPath
在实际爬虫中,如果正则表达式不是很熟练的话(毕竟需要记住的东西有点多),处理HTML会又慢又吃力,一种效率更高的方式是使用xpath,可以将HTML文件转换成XML文档,然后用XPath进行处理。XML和HTML的区别数据格式 描述 设计目标 XML Extensible Markup Language (可扩展标记语言) 被设计为传输和存储数据,其焦点...原创 2018-09-28 22:04:57 · 361 阅读 · 0 评论