案例：爬取名言网数据

最新推荐文章于 2022-01-04 14:13:49 发布

pythoncrawler

最新推荐文章于 2022-01-04 14:13:49 发布

阅读量747

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/E_hero_/article/details/99640070

版权

爬虫练习者网站
这是一个国外的网站专门用来供爬虫学习者练习的网站，里面的源代码格式非常的规范，没有现在类似诸多网站的CSS渲染，适合爬虫初学者练习。进入网站后空白处电机右键，选择查看网页源代码或者在网站上点击ctrl+U查看源代码。

1.python向服务器发送请求

首先调用urlopen,re和csv模块

from urllib.request import urlopen
import re,csv
url="http://qoutes.toscrape.com"
res=urlopen(url)

2.response对象获取源代码

res.read().decode('utf-8')
# decode后面括号也可以为空，因为默认是utf-8，通常大多是网站使用默认即可，但是有小部分网站会使用其他的，观察源代码开头的Charset的值即可

3.使用正则表达式、bs4进行内容的抓取

抓取的内容为网站上的第一页的名言，作者以及标签

使用search所得到的结果是一个对象，会包含正则表达式的前后部分，若只想要匹配的内容需调用group（）函数，在括号中输入数字，即想要留下第几个括号的内容

如下面的代码所示：
正则表

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pythoncrawler

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

01-01

本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考，具体如下：爬取名言网top10标签对应的名言，并存储到mysql中，字段（名言，作者，标签） #! /usr/bin/python3 # -*- coding:utf-8 -*- from urllib.request import urlopen as open from bs4 import BeautifulSoup import re import pymysql def find_top_ten(url): response = open(url) bs = Beaut

爬虫实战1-多进程爬取名言网

weixin_40594668的博客

05-13

231

import requests import re from multiprocessing import Pool def get_html(url, header=''): ''' :param url: http://quotes.toscrape.com/ :param header: 设置请求头这个网站没有反爬可以不设置 :return: 返回响应数据 ''' response = requests.get(url, headers=head

参与评论您还未登录，请先登录后发表或查看评论

python功能性爬虫案例_Python爬虫实现使用beautifulSoup4爬取名言网功能案例

weixin_39778582的博客

12-09

226

本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考，具体如下：爬取名言网top10标签对应的名言，并存储到mysql中，字段(名言，作者，标签)#! /usr/bin/python3# -*- coding:utf-8 -*-from urllib.request import urlopen as openfrom bs4 import Bea...

网络爬虫-格言网全站数据(scrapy)

热门推荐

qq_39802740的博客

06-20

1万+

人生就应该多读一点鸡汤→传送门 : 格言网好了废话不多说,直接上干活,今天是如何利用scrapy框架爬取格言网的全站数据并存储至本地.如何安装配置scrapy环境请看我的另一篇文章: 首先是创建一个scrapy框架的整体结构,这里就不做详细解释了. 这样一个整体的框架就构建出来了. items.py: (明确需要保存的字段,title 标题,url 标题对应的地址,conte...

爬虫-练习（二）爬取名言到数据库

potter

03-28

1045

网址：http://quotes.toscrape.com/page/1/在数据库中新建一个表：create table quotes ( quote varchar(100), author varchar(100), tags varchar(100) );主程序代码：#!usr/bin/python3 #! -*- coding: utf-8 ...

Python爬虫开发（三）：数据存储以及多线程

01-13

466

0x00 介绍本文我们就两个方面来讨论如何改进我们的爬虫：数据存储和多线程，当然我承认这是为我们以后要讨论的一些东西做铺垫。目的：通常我们需要对爬虫捕捉的数据进行分析，处理，再次利用或者格式化，显然我们不能只是把爬虫捕捉到的数据在内存中处理，然后打印在屏幕上。在本章，我将介绍几种主流的数据存储方法。爬虫处理数据的能力往往是决定爬虫价值的决定性因素，同时一个稳定的存储数据的方法也绝对是一个爬虫的价值体现。另外，采用多开线程的爬虫，创造多个并行线程协调工作也绝对是提高爬虫效率，降低失败率的好办法。

爬虫中的页面解析和数据处理

weixin_45414731的博客

09-24

1544

文章目录什么是XMLXML 和 HTML 的区别XML文档示例HTML DOM 模型示例XML的节点关系1. 父（Parent）子（Children）3. 同胞（Sibling）4. 先辈（Ancestor）5. 后代（Descendant）什么是XPath？XPath 开发工具选取节点谓语（Predicates）选取未知节点选取若干路径XPath的运算符lxml库正则用的不好，处理HTML文档...

爬虫第四课数据处理

徐加七的博客

11-01

6087

页面解析和数据提取一般来讲对我们而言，爬虫需要抓取的是某个网站或者某个应用的内容，提取有用的数据。响应内容一般分为两种，非结构化的数据和结构化的数据。结构化数据：先有结构、再有数据非结构化数据：先有数据，再有结构，不同类型的数据，我们需要采用不同的方式来处理。六、数据处理结构化的数据处理 HTML 文件正则表达式 XPath CSS选择器 JSON 文件 JsonPa...

海量数据的非精确去重利器——从HyperLogLog到布谷鸟过滤器

More than coding

01-04

1203

背景非精确：牺牲一定准确度换取空间效率和时间效率。统计网站的UV（独立访客数）：当用户数量非常多时，比如几千万甚至上亿，那么使用普通的哈希表去重将会占用可怕的巨大内存空间。引用吴军博士的《数学之美》中所言，这是因为哈希表的空间效率不够高，哈希表的存储效率一般只有50%。如果用哈希表存储一亿个userId，每个userId对应 8bytes，那么一个id就需要占用16bytes。因此一亿个userId占用1.6GB，如果存储几十亿个userId则需要上百GB的内存。而内存又是非常宝贵的资源，单单为了统计

python 定时器每天给微信好友（女朋友）发送天气预报、金山词霸每日英文名言、问候语

04-17

python 定时器每天给微信好友（女朋友）发送天气预报、金山词霸每日英文名言、问候语

【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）

lys_828的博客

02-04

1739

Scrapy介绍总共有五部分组成的：具体的流程可看图示引擎、调度器、下载器、蜘蛛和项目管道爬取流程针对于每个URL， Scheduler -> Downloader -> Spider -> ① 如果返回的是新的URL，就会返回Scheduler ② 如果是需要保存的数据，则会被放到item pipeline里面 Scrapy安装在命令行窗口下执行下面语句 pip i...

爬虫入门到放弃(三) 爬取格言网并储存到数据库

qq_38636998的博客

12-19

437

代码送上,请各位点下关注,本人也会持续更新各种技术 # -*- coding:utf-8 -*- from bs4 import BeautifulSoup import requests import pymysql #定义目标网站url url='https://www.geyanw.com/' # #编写模拟浏览器获取 headers = {'User-Agent':'Mozilla/5.0...

python实现爬取名人名言

自学python的博客

05-16

2492

python实现爬取名人名言技术路线：requests-bs4-re 第一步首先打开名人名言的网站https://mingyan.supfree.net/search.asp 第二步然后查看源代码，可以看到，名人名言都存储在table标签内，可以利用bs4库对其进行查找标签即soup1 = soup.find('table') 找到table标签，然后再table标签里再寻找a标签，stockInfo = soup1.find_all('a')，此是的stockinfo变量是class

手把手带你爬虫 | 爬取语录大全

数据森麟

12-29

619

爬取国外名人名言的内容作者和标签（标签只选择第一个）

weixin_45774059的博客

07-14

377

结果代码 import requests from lxml import etree '''获取网页源代码''' try: r = requests.get('http://quotes.toscrape.com/page/1/') r.raise_for_status() r.encoding = r.apparent_encoding html = r.text except: print('出现错误') html1 = etree.HTML...

爬虫日记(10)：爬取国外名人名言

大坡3D软件开发

03-09

728

经过前一个例子的学习，已经对scrapy写爬虫之简单，代码量之少，感觉到非常吃惊了吧。为了更进一步了解scrapy的运行机制，以及它的实际工作过程，再来学习一个的爬取国外名人名言的例子，透过这个例子再次地加深scrapy的理解。 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等等的程序中。其最初是为了实现网页抓取所设计的，现在也可以应用于通过API获取数据(例如 Amazon Associates Web Servic..

Scrapy框架爬取名人名言网信息——基于css内置选择器

weixin_43636302的博客

11-12

1549

问题背景目的是将该名人名言网站的作者、标签以及文本信息爬取下来。实现过程一、调出cmd窗口 cd /d 所要保存的路径 #q2为新建的文件名 scrapy startproject q2 cd q2 scrapy genspider q2q quotes.toscrape.com #接下来可直接在cmd窗口中进行测试，也可以到Python编辑器里面进行测试 cd q2 scrapy s...