python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

最新推荐文章于 2022-01-09 19:18:23 发布

weixin_39949473

最新推荐文章于 2022-01-09 19:18:23 发布

阅读量354

点赞数

文章标签： python获取网站代码

本文链接：https://blog.csdn.net/weixin_39949473/article/details/111417156

版权

# -*- coding: utf-8 -*-

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class Spider(object):

def __init__(self):

print('开始爬取豆瓣图书top250的内容。。。。。。')

# 传入url，返回网页源代码

def getSourceCode(self, url):

html = requests.get(url)

return html.text

# 从源代码中提取出我们需要的内容块：{书名、作者出版社等、评分、评价人数}。

def getEveryBookContent(self, sourceCode):

everyBookContent = re.findall('

', sourceCode, re.S)

# everyBookContent = re.findall('

(.*?)

', sourceCode, re.S)

return everyBookContent

# 从内容块中提取出数据

def getBookInfo(self, eachBookContent):

bookInfo = {}

# bookInfo['title'] = re.subn('( |\n|
|?span.*?>)', "", re.search('(.*?)', eachBookContent, re.S).group(1))[0]

bookInfo['title'] = re.sub('( |\n|
|?span.*?>)', "", re.search('(.*?)', eachBookContent, re.S).group(1))

bookInfo['author'] = re.search('

(.*?)

', eachBookContent, re.S).group(1)

bookInfo['discussNum'] = re.sub('( |\n|
)', "", re.search('\((.*?)\)', eachBookContent, re.S).group(1))

bookInfo['score'] = re.search('(.*?)', eachBookContent, re.S).group(1)

return bookInfo

# 将结果保存到文件

def saveBookInfo(self, bookList):

f = open("bookList.txt", "a")

for each in bookList:

f.writelines('书名:\t {}\n'.format(each['title']))

f.writelines('作者:\t {}\n'.format(each['author']))

f.writelines('评论数:\t {}\n'.format(each['discussNum']))

f.writelines('评分:\t {}\n\n'.format(each['score']))

f.close()

def start(self, url):

sourceCode = self.getSourceCode(url)

everyBookContent = self.getEveryBookContent(sourceCode)

bookList = []

for each in everyBookContent:

bookList.append(self.getBookInfo(each))

self.saveBookInfo(bookList)

if __name__ == '__main__':

douban = Spider()

url = 'http://book.douban.com/top250?start=0'

i = 0

while i <= 225:

url = 'http://book.douban.com/top250?start={}'.format(i)

douban.start(url)

i += 25

【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...

Python 2&period;7&lowbar;利用xpath语法爬取豆瓣图书top250信息&lowbar;20170129

大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...

Python爬虫入门：爬取豆瓣电影TOP250

一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

Python 2&period;7获取网站源代码的几种方式&lowbar;20160924

#coding:utf-8 import urllib2,cookielib if __name__ == '__main__': root_url='https://www.baidu.com/' ...

【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例

基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

Python爬虫-爬取豆瓣图书Top250

豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作需要安装reques ...

python爬虫之小说网站--下载小说(正则表达式)

python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...

python爬虫之12306网站--火车票信息查询

python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...

随机推荐

Maven的pom报maven-surefire-plugin&colon;pom&colon;2&period;12&period;4

新建Maven项目,报错: Failure to transfer org.apache.maven.plugins:maven-surefire-plugin:pom:2.12.4 from htt ...

Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例

场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作: 使用技术:Spark Streaming + Spark JDBC External Data ...

HttpWebRequest中的KeepAlive

一直不是非常理解.NET中HttpWebRequest的KeepAlive属性有何用处,看了这篇文章就清楚了! http://www.cnblogs.com/lwzz/archive/2011/08/ ...

MySQL高效获取记录总数

通常mysql获取查询记录总数我们使用如下语句: SELECT COUNT(*) FROM users WHERE k='avs'; 或:SELECT id FROM goods WHERE k=' ...

springmvc实现long-pulling技术

背景介绍: 项目中有一个通讯模块,本来是用websocket全双工技术实现的,但IE10下面不支持websocket,而国内的360.2345浏览器封装的所有是IE10下面的内核,考虑到站点在国内的 ...

XJOI1559树转二叉树

树转二叉树将一棵树转化成二叉树. 输入格式: 输入的信息,第一行一个数n,(n<=1000)是树的结点数,以下n行,第i+1行是第i个结点的信息,第一个整数,是该结点的特征数值,后列出所有孩子 ...

WPF中DataGrid垂直滚动条滚动后导致每行CheckBox选择错乱

问题: WPF的DataGrid中出现选取或者多选以及单选的时候,出现滚动条的时候,如果发生了滚动,默认情况下就会出现已经选择的CheckBox错乱.这样的原因何在? 解决方案: 经过查阅资料,了解到 ...

持续更新：从零开始的php学习生活

其实也不是真的从零开始,在此之前我还是一边研究博学(博客美化)一边学的CSS.HTML.JavaScript的,相关内容可以戳这里. 看本文之前你最好稍微熟悉一下HTML.JavaScript什么的. ...

Docker 使用 Dockerfile 构建自己的镜像

可以使用Dockerfile的配置文件方式进行构建自己的镜像下面利用docker构建一个Caddy web服务器构建脚本 Dockerfile有自己的命令,下面使用了一些比较常用的命令,更多的Do ...

React(七)独立组件间的共享Mixins

(1)ES6的使用 (https://github.com/brigand/react-mixin) 下载依赖包 npm i react-mixin --save (2)导入react-mixin包 ...

weixin_39949473

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

# -*- coding: utf-8 -*-import requestsimport reimport sysreload(sys)sys.setdefaultencoding('utf-8')class Spider(object):def __init__(self):print('开始爬取豆瓣图书top250的内容。。。。。。')# 传入url，返回网页源代码def getSourceC...
复制链接

扫一扫