- 博客(5)
- 收藏
- 关注
转载 小白学爬虫----3--简单爬取“生活大爆炸”贴吧
昨天学了了如何用selenium的webdriver获取比较简单的网页的html。今天学习如何从html中获取我们想要的信息,以一个真正意义上的爬虫小项目为例。比如爬取python百度贴吧找到每一篇帖子的标题、发帖人、日期、楼层以及跳转链接python贴吧首页的URL是http://tieba.baidu.com/f?kw=生活大爆炸&ie=utf-8&pn=0
2017-07-16 15:13:39 299
原创 小白学爬虫--2
之前学了一点bs4库的使用和html的基础知识,今天没有系统性的学习一点爬虫知识,只是在努力爬取某一个网页。在这个过程中,接触到了selenium包的Webdriver。今天用这个东西主要是为了获取网页的html,但是在爬取含有frame框架的网页上,简单的webdriver不起作用。但是对于一般的html爬取还是很有效的至此,爬虫的第一步算是结束----get要爬取网页的
2017-07-15 23:19:49 243
转载 html基础学习---1
html是一种超文本标记语言,用来描述网页内容。html文档包含html标签和文本内容浏览器在处理html文档的时候不会显示html标签,但是会根据标签解释内容。比如与之间的文本描述网页,和之间的显示为标题,与之间的显示为一段话。比如:还有超链接例子:This is a link(#显示的内容)还有图像的例子:下面简单的介绍html元素语法:html
2017-07-14 22:52:21 141
转载 小白学爬虫-----bs4的学习-1
7.15爬虫的学习,大致分成三个步骤:1、简单的定向爬虫,以request-bs4-re包为基础;2、大型的框架式爬虫(scrapy)3、浏览器模拟爬虫(selenium模拟)今天学习的是request和bs4的包。首先,我们有一段html源码,利用bs4中的BeautifulSoup进行“格式化”,从而形成一个“类”,方便我们对其中的属性进行操作。soup = B
2017-07-14 22:08:14 332
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人