自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 小白学爬虫--5--爬取热映电影信息

本次爬虫爬取的是电影网站   http://dianying.2345.com/top/

2017-07-18 17:13:50 472

转载 小白学爬虫----3--简单爬取“生活大爆炸”贴吧

昨天学了了如何用selenium的webdriver获取比较简单的网页的html。今天学习如何从html中获取我们想要的信息,以一个真正意义上的爬虫小项目为例。比如爬取python百度贴吧找到每一篇帖子的标题、发帖人、日期、楼层以及跳转链接python贴吧首页的URL是http://tieba.baidu.com/f?kw=生活大爆炸&ie=utf-8&pn=0

2017-07-16 15:13:39 299

原创 小白学爬虫--2

之前学了一点bs4库的使用和html的基础知识,今天没有系统性的学习一点爬虫知识,只是在努力爬取某一个网页。在这个过程中,接触到了selenium包的Webdriver。今天用这个东西主要是为了获取网页的html,但是在爬取含有frame框架的网页上,简单的webdriver不起作用。但是对于一般的html爬取还是很有效的至此,爬虫的第一步算是结束----get要爬取网页的

2017-07-15 23:19:49 243

转载 html基础学习---1

html是一种超文本标记语言,用来描述网页内容。html文档包含html标签和文本内容浏览器在处理html文档的时候不会显示html标签,但是会根据标签解释内容。比如与之间的文本描述网页,和之间的显示为标题,与之间的显示为一段话。比如:还有超链接例子:This is a link(#显示的内容)还有图像的例子:下面简单的介绍html元素语法:html

2017-07-14 22:52:21 141

转载 小白学爬虫-----bs4的学习-1

7.15爬虫的学习,大致分成三个步骤:1、简单的定向爬虫,以request-bs4-re包为基础;2、大型的框架式爬虫(scrapy)3、浏览器模拟爬虫(selenium模拟)今天学习的是request和bs4的包。首先,我们有一段html源码,利用bs4中的BeautifulSoup进行“格式化”,从而形成一个“类”,方便我们对其中的属性进行操作。soup = B

2017-07-14 22:08:14 332

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除