爬取书虫

g ying

于 2018-09-15 19:57:36 发布

阅读量342

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/asliband/article/details/82717014

版权

Python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一、机制：例如在浏览器中输入www.baidu.com回车，实际是由浏览器找到这个网址所对应的IP地址，向IP地址的服务器发送一个请求，服务器会给一个响应，通过HTTP协议进行通讯。

二、HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是从WWW 服务器传输超文本到本地浏览器的传送协议

HTTP最初的目的是为了提供一种发布和接收HTML页面的方法，HTTP是一个客户端和服务器端请求和应答的标准（TCP）。客户端是终端用户，服务器端是网站。通过使用Web流量器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

三、爬虫爬取数据的原理：

构造一个请求
发送请求，获取服务器端的响应
从响应内容里提取我们所需要的特定数据

四、爬虫的作用和应用场景：

在信息时代，面对海量数据，我们需要一种高效便捷的手段来帮助我们进行数据分析和获取。

五、原代码：

 #!/usr/bin/python
 #coding:utf-8
 '''
 爬取书籍
 '''
 
 import urllib2
 
 import re
 
 from bs4 import BeautifulSoup

 #根据指定url获取服务器端响应
 def OpenPage(url):
     Myheaders = {}
     #urllib2.Request 构造请求
     req = urllib2.Request(url,headers=Myheaders)
     #相当于，在浏览器的地址栏，输入了网址,url是网址，headers=Myheaders用关键字参数赋值（因为Request不只2个参数，如果不用关键字参数赋值，有可能会赋到别的参数上）
 
     #激活请求，获取响应,获取类文本文件对象
     f = urllib2.urlopen(req)
     #服务器端响应类文本对象，通过read()方法读取响应内容
     data = f.read()
     #ignore replace xml..replace
     return data.decode("GBK",errors="ignore").encode("utf-8")
 
 def Test1():
     url = "http://www.shengxu6.com/book/2967.html"
     print OpenPage(url)
 
 #从主页解析数据，获取各个章节的跳转链接url
 def ParseMainPage(page):
     #调用爬虫库提供的相关方法，进行数据分析
 
 #print type(page)#解析之前打印标签格式（是字符串）
 
     #html.parser, python自带的html解析引擎,Beaut ifulSoup是爬虫库的一种
     soup = BeautifulSoup(page,"html.parser")
 #print type(soup)#解析之后打印标签格式（格式化之后变成BeautifulSoup类）格式化目的是给我们提供操作方法html
 
     #find_all方法在全文内容里搜索符合内容的标签，返回一个列表
     #检索所有的href属性（键值对）值中包含read字符串的标签
     GetA = soup.find_all(href=re.compile("read"))#compile是正则表达式对象编译成字符串
     #因为标签内部属性是键值对的方式href=""
 #print GetA[0]["href"]打印href属性值,不管什么属性都可以取
 
     #UrlList = []空的是可以往里面追加
     #for item in GetA:遍历item，取到遍历元素的类
     #UrlList.append("http://www.shengxu6.com" + item["href"])
     #return UrlList
     return ["http://www.shengxu6.com" + item["href"] for item in GetA]#和上面4行一个意思，等价
 
 def Test2():
     url = "http://www.shengxu6.com/book/2967.html"
     page = OpenPage(url)
     print ParseMainPage(page)
 
 #解析一个章节内容，获取标题和正文
 def ParseDetailPage(page):
     #先进行格式化
     soup = BeautifulSoup(page,"html.parser")
 
  #find_all方法在全文内容里搜索符合内容的标签，返回一个列表
     #get_text() 方法，用于获取标签正文
     Title = soup.find_all(class_="panel-heading")[0].get_text()
     Content = soup.find_all(class_="content-body")[0].get_text() #正文
 #<div class="panel-body content-body content-ext">正文</div>
 #Div标签，class类=“panel-body”
     return Title,Content
 
 def Test3():
     url = "http://www.shengxu6.com/read/2967_2008175.html"
     page = OpenPage(url)
     print ParseDetailPage(page)
 
 #写到文件
 def WriteDataToFile(data):
     #f = open("output.txt","a+")
     #f.close()
 #忘记关闭文件，提供一个上下文管理器with open()as f
     with open("output.txt","a+") as f:#用追加写（原因是不可能只有一个章节）
         f.write(data)
 
 def Test4():
     WriteDataToFile("dnaidnasod")
 
 if __name__ == "__main__":
     url = raw_input("请输入要爬取的小说地址:")
     #打开主页获取主页内容
     page = OpenPage(url)#根据指定url获取服务器端响应
     print "Clone Begin"#打印开始爬取
     UrlList = ParseMainPage(page)#从主页解析数据，获取各个章节的跳转链接url
     for item in UrlList:#遍历
         #每个item都是一个章节的url地址
         detail = OpenPage(item)#打开每一个章节
         #解析章节内容,获取标题和正文
         Title,Content = ParseDetailPage(detail)
         print "Clone " + Title#打印进度，爬到哪一章
         data = "\n\n" + Title + "\n\n" + Content#“\n\n”空格，串起来有问题，Title Content在网页上响应的内容是Unicode码，我们自己写的是ascii码“\n\n”
         #将数据写入文件
         WriteDataToFile(data.encode("utf-8"))#解决上面问题
     print "Clone Done"#打印关闭爬取

g ying

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取书虫

一、机制：例如在浏览器中输入www.baidu.com回车，实际是由浏览器找到这个网址所对应的IP地址，向IP地址的服务器发送一个请求，服务器会给一个响应，通过HTTP协议进行通讯。二、HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是从WWW 服务器传输超文本到本地浏览器的传送协议 HTTP最初的目的是为了提供一种发布和接收HT...
复制链接

扫一扫

专栏目录