网络爬虫
文章平均质量分 87
梦醒君04
这个作者很懒,什么都没留下…
展开
-
python 爬虫入门——xpath获取文本信息
使用Xpath语法看前端一组HTML内容:页面信息htm = """<div> <ul> <li class="a1"><a href="network1.html">第一</a></li> <li class="a2"><a href="network2.html">第二</a></li> <li class="a3"><a href="netwo原创 2020-06-15 11:52:06 · 10272 阅读 · 2 评论 -
python 爬虫入门——获取页面代码
常见的爬虫有很多:requests库,lxml库,re库,bs4库,urllib库等。因为urllib是python自带的库,而包含urllib用法的requests库其实还挺好用的(各有各的好,这里先不比较)。这里看看爬虫requests库的使用。import requests# url返回百度response = requests.get("https://www.baidu.com")>>> response<Response [200]>返回结果是2原创 2020-06-14 15:50:03 · 8554 阅读 · 0 评论 -
python 爬虫入门--图片爬取
python 爬虫入门–图片爬取GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py爬取文字信息没难度?感觉太单调?那我们试试找一些图片爬取一下!首先了解看看文本信息和图片信息有何区别?<p>文本信息</p><a href="http://网址">百度链接</a><img src="原创 2020-06-09 17:29:46 · 1033 阅读 · 2 评论 -
python 爬虫入门--文字爬取
python 爬虫入门–文字爬取对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下。首先我们试试爬取网页中的***文本信息***使用的是我们的一个requests 第三方库。#使用 import 导入requests库import requests# 使用requests库中 get方法,打开网址r = requests.get('https://www.qiushibaike.com/text/') #打印出网页HTML信息prin原创 2020-06-08 15:23:11 · 5053 阅读 · 1 评论