![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 53
莱维贝贝、
这个作者很懒,什么都没留下…
展开
-
爬虫之bs4基本案列使用与进阶案列使用
bs4基本案列使用bs4基本解析:https://blog.csdn.net/A496608119/article/details/115689361?spm=1001.2014.3001.5501直接上案列:爬取北京新发地的菜价格代码如下:# 1. 拿到页面源代码# 2. 使用bs4进行解析,拿到数据import requestsfrom bs4 import BeautifulSoupimport csv# 1. 拿到页面源代码url = "http://www.xin原创 2021-04-14 14:34:43 · 560 阅读 · 1 评论 -
爬虫之bs4解析
目录bs4解析-HTML语法bs4拿到想要的自己的内容,通过标签名精准拿到数据bs4解析-HTML语法bs4解析比较简单,但是呢,首先你需要了解一丢丢的html知识,然后再去适应bs4去提取,逻辑和编写难度就会非常简单和清晰。HTML(Hyper Text Markup Language)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言,其语法规则就是用不同的标签对网页上的内容进行标记从而使网页显示除不同的展示效果。<h1> 我爱你<.原创 2021-04-14 09:09:40 · 357 阅读 · 0 评论 -
爬虫之正则表达式
目录正则表达式Python中的正则应用正则表达式Regular Expression 正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。正则的有点:速度快,效率高,准确性高正则的缺点:新手上手难度有点高不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂正则的语法:使用元字符进行排列组合用来匹配字符串 在线测试正则表达式https://tool.oschi.原创 2021-04-13 15:05:04 · 1448 阅读 · 1 评论 -
爬虫之手刃豆瓣Top250电影排行并保存为csv格式
直接上手刃豆瓣Top250电影排行榜# 拿到页面源代码 request# 通过re来提取想要的有效信息 reimport requestsimport reimport csvurl = "https://movie.douban.com/top250"'''输入此网址可以爬取前25电影:https://movie.douban.com/top250输入此网址可以爬取26-50电影:https://movie.douban.com/top250?start=25&filter原创 2021-04-13 16:04:35 · 871 阅读 · 0 评论