![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python 爬虫
文章平均质量分 75
MYH永恒
这个作者很懒,什么都没留下…
展开
-
Python爬虫:正则表达式的应用以及数据保存到excel表
上一节学习了如何解析网页,说白了就是怎么将一个html文件中的信息提取出来,当然这需要有一定的html基础,这样对于一些标签的使用更加的容易和方便一些。解析来要学习的内容就是上节提到的比较常用而且比较重要的一个东西:正则表达式。然后讲一下如何将数据存储到excel表格当中。目录一、正则表达式代码测试二、保存数据代码测试总结一、正则表达式正则表达式简单来说就是:判断一个字符串是否符合一定的标准,当然这个标准就是我们想要爬取到的信息。利用正则表达式将我们想要提取的信息样式表达出来,然后直接匹配爬取即可!原创 2021-02-24 23:09:17 · 1548 阅读 · 0 评论 -
Python爬虫基础知识(BeautifulSoup4) 网页解析
昨天我先“伪装”成了浏览器对网页进行了访问,爬取到了网页的信息。那么接下来的一步就是对爬取到的信息进行解析,获取到我们想要的信息。这个时候我们就需要引入一个库叫做靓汤,也就是BeautifulSoup4,通过这个库里面的一些函数可以将我们的网页文件解析成我们想要信息的形式。BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是一个Python对象,所有对象可以归纳为4种:Tag 标签NavigableString 标签内的内容(字符串等等)BeautifulSoup原创 2021-02-20 16:38:56 · 833 阅读 · 0 评论 -
Python爬虫基础 爬取网页 访问网页
前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等。原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已经忘得差不错了,所以就想着学习利用Python进行爬取。目录一、对爬虫的理解:二、爬取网页1.模仿浏览器2.实例分析(1)代码(2)获取浏览器User-Agent总结一、对爬虫的理解:爬虫听上去似乎很高大上,其实简单一句话就是:模仿浏览器对网页进行访问并解析,进一步从中复制我们想要的信息,然后将其保存起来原创 2021-02-18 21:53:11 · 7799 阅读 · 1 评论