爬虫学习笔记
chen_kng
天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。
展开
-
lxml与Xpath的使用
在python中用于XML的处理工具不少吗,比如Python2中的ElementTree API等等,不过目前的开发者一般使用lxml这个库来处理Xpath。命令来进行安装,安装时可能会出现一点问题,同时也可以使用 easy install等方式安装。一切以官方文件为主。其中parse()的方式会读取整个xml文档并在内存中构建一个树结构。如果计算机上没有安装lxml首先需要。.........原创 2022-08-08 23:00:00 · 497 阅读 · 0 评论 -
python网络爬虫学习笔记1(BeautifulSoup)
BeautifulSoup解析网页原创 2022-07-11 09:51:17 · 330 阅读 · 0 评论 -
python网络爬虫学习笔记1(互联网和HTTP,HTML)
互联网或者叫因特网(internet),这些网络以一组标准的网络协议族相连,连接全世界几十亿的设备,形成逻辑上的单一巨大国际网络。互联网并不等同于万维网(WWW),万维网只是一个超文本相互链接而成的全球性系统,而且是互联网所能提供的服务范围之一。HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫等,客户端可以向服务器上的指定端口发起HTTP请求。这个客户端被称为用户代理(user agent)。应答服务器上存储着一些资源,比如HTML文件和图像。这个应答服务原创 2022-07-06 11:06:28 · 82 阅读 · 0 评论