![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
木有君兮
这个作者很懒,什么都没留下…
展开
-
Python 爬虫-2020年中国大学排名
爬虫-中国大学排名 要爬取的网站:2020软科中国大学排名 代码思路均来自:北京理工大学-Python网络爬虫与信息提取(mooc)对爬虫感兴趣的可以去看一下。 1.爬虫的第一步首先要检查所爬取的网站是否有爬虫协议(robots协议),爬取人家的东西,还是要看看网站上那些东西是不能爬的。 检查2020软科中国大学排名的爬虫协议得到结果如下: ...原创 2020-09-13 20:17:39 · 695 阅读 · 5 评论 -
Beautiful Soup类的基本元素
Beautiful Soup类的基本元素 基本元素 说明 Tag 标签最基本的信息组织单元,分别用<和</>标明开头和结尾 Name 标签的名字,<p></p>的名字是’p’, 格式: .name Attributes 标签的属性,字典形式组织,格式: <tag>.attrs NavigableString 标签内非属性字符串,<>…</>中字符串,格式:原创 2020-09-12 21:22:13 · 274 阅读 · 0 评论