放开我的金克丝丶-CSDN博客

转载小白学爬虫--5--爬取热映电影信息

本次爬虫爬取的是电影网站 http://dianying.2345.com/top/

2017-07-18 17:13:50 472

转载小白学爬虫----3--简单爬取“生活大爆炸”贴吧

昨天学了了如何用selenium的webdriver获取比较简单的网页的html。今天学习如何从html中获取我们想要的信息，以一个真正意义上的爬虫小项目为例。比如爬取python百度贴吧找到每一篇帖子的标题、发帖人、日期、楼层以及跳转链接python贴吧首页的URL是http://tieba.baidu.com/f?kw=生活大爆炸&ie=utf-8&pn=0

2017-07-16 15:13:39 299

原创小白学爬虫--2

之前学了一点bs4库的使用和html的基础知识，今天没有系统性的学习一点爬虫知识，只是在努力爬取某一个网页。在这个过程中，接触到了selenium包的Webdriver。今天用这个东西主要是为了获取网页的html，但是在爬取含有frame框架的网页上，简单的webdriver不起作用。但是对于一般的html爬取还是很有效的至此，爬虫的第一步算是结束----get要爬取网页的

2017-07-15 23:19:49 243

转载 html基础学习---1

html是一种超文本标记语言，用来描述网页内容。html文档包含html标签和文本内容浏览器在处理html文档的时候不会显示html标签，但是会根据标签解释内容。比如与之间的文本描述网页，和之间的显示为标题，与之间的显示为一段话。比如：还有超链接例子：This is a link（#显示的内容）还有图像的例子：下面简单的介绍html元素语法：html

2017-07-14 22:52:21 141

转载小白学爬虫-----bs4的学习-1

7.15爬虫的学习，大致分成三个步骤：1、简单的定向爬虫，以request-bs4-re包为基础；2、大型的框架式爬虫（scrapy）3、浏览器模拟爬虫（selenium模拟）今天学习的是request和bs4的包。首先，我们有一段html源码，利用bs4中的BeautifulSoup进行“格式化”，从而形成一个“类”，方便我们对其中的属性进行操作。soup = B

2017-07-14 22:08:14 332

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 小白学爬虫--5--爬取热映电影信息

转载 小白学爬虫----3--简单爬取“生活大爆炸”贴吧

原创 小白学爬虫--2

转载 html基础学习---1

转载 小白学爬虫-----bs4的学习-1

空空如也

空空如也

转载小白学爬虫--5--爬取热映电影信息

转载小白学爬虫----3--简单爬取“生活大爆炸”贴吧

原创小白学爬虫--2

转载小白学爬虫-----bs4的学习-1