python练习踩得坑-爬取百度页面

最新推荐文章于 2024-03-20 13:11:09 发布

m0_52150351

最新推荐文章于 2024-03-20 13:11:09 发布

阅读量485

点赞数

文章标签： python Powered by 金山文档

本文链接：https://blog.csdn.net/m0_52150351/article/details/129056117

版权

跟着B站的up，用pycharm学习爬取并显示百度的界面。代码一模一样

但是我最终显示出的百度界面是这样的

开始是以为Pycharm的问题，不能显示中文，也是网上各种找信息，后来发现不对劲。我在用with open()保存之前，先输出了一下内容。发现其中的中文是可以显示的

于是我注意到了，肯定是with open（）函数的原因，发现了在pyhon3以上,需要写个encoding='utf-8',

with open (file = "你要打开的路径名（或保存内容的地址）"，mode = "r/w/a"，encoding = "utf-8") as f1:

data = f1.read/write()

最终修改后的代码

运行成功：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_52150351

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫基础项目 --爬取百度页面

D_wart的博客

12-18

476

#1.导包 import requests #2.确定url base_url = 'https://www.baidu.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Sa...

【python爬虫实例】爬取百度翻译，有源码

热心的布丁-有计划的自学编程才会成功

05-01

2187

现如今,Python在世界编程语言排行榜中排名第一的编程语言，它的语法简单易学，适合初学者入门，同时也具有强大的功能和广泛的应用，可以用于Web开发、数据分析、人工智能、网络爬虫等多个领域。而爬虫，无疑也是学计算机的需要掌握的技能。因为，大数据时代，在做数据分析或数据挖掘时，首先要有大量的数据。而爬虫，无疑是采集数据很方便的方式。从今天起，会专门写一个专栏，用来介绍一些Python爬虫实例，希望能帮到各位，记得三连哦，有任何问题请留言，看到会及时回复。

参与评论您还未登录，请先登录后发表或查看评论

python爬取百度图片（新）

11-14

python3 爬虫根据关键字搜索爬取并下载百度上的相关图片

python学习之路——爬取百度

adsfeed的博客

10-18

145

import requests#导入requests模块， url = "www.baidu.com"#变量赋值 s = request.get(url)#requests的get方法 s.enconding = "utf-8"#编码，不然回错乱 print(s.text)#以文本打印

爬虫实战-Python爬取百度当天热搜内容

最新发布

虫无涯的博客

03-20

2455

使用以上同样的方法，我们可以看到前两条热搜的简介如下：如今兰考发生了翻天覆地的变化，张庄村的老百姓把xx走过的一条路改名为“幸福路”，沿着“幸福路”奔向越来越好的日子...同样可以使用正则表达式表示下：(.\*)通过以上分析，我们就得到了我们需要重点几个变量：热搜标题： title = re.compile(r’(.*?‘)热搜简介：introduction = re.compile(r’(.*)<a’)#热搜指数：index = re.compile(r’(.*?')

Python爬虫实战(一) 用Python爬取百度百科

JAVAmonster12的博客

04-30

3175

1、爬取百度百科百度百科是一个静态网页，爬取起来很简单，而且请求参数可以直接放在 URL 里面，例如：地址 https://baike.baidu.com/item/网络爬虫对应的就是网络爬虫的百度百科页面地址 https://baike.baidu.com/item/计算机对应的就是计算机的百度百科页面可以说是十分方便，也不多说，直接放代码，有不明白的地方可以看看注释： import urllib.request import urllib.parse from lxml impor

pyhon3爬取百度搜索结果

u013172664的博客

06-15

4592

前不久为了在群里斗图，想多搜集点表情包学习了一下python爬虫，搜集了一万多张吧。下载太多，完全不知道有什么图，还是斗不过！！！！！今天又想爬取百度的搜索结果，本人还是小白，怕忘记记录一下，望大神赐教指正同样是以爬取图片为例，还很简陋，没什么实用价值手机百度搜索和PC的搜索爬取有些不一样，主要是html不一样 1、首先获取百度搜索页面的html代码，一定要记得设置User-Agen...

python 百度软件爬虫下载

04-14

python 百度软件爬虫,下载一些上面的软件，作统计的作用。放上来混点分。

python爬虫之爬取百度图片

一只小蒟蒻的博客

01-04

1354

这个代码实现的功能是爬取百度图片，具体操作是用百度搜索图片，然后点击f12进入网页的后台，点击刷新以后点击一下all 再搜索index 打开第一个之后把里面的网址复制下来粘贴到代码中的指定位置就可以在代码的同一个文件夹中得到想爬取的图片啦！代码： import requests import re page_url = "" # 百度获取index的URL response =reque...

python爬虫获取百度首页内容教学

09-19

在本篇内容里小编给大家分享了关于python爬虫获取百度首页内容教学，需要的朋友们可以跟着学习下。

利用Python爬虫批量下载百度图库图片

02-04

利用Python爬虫批量下载百度图库图片

爬虫小程序 - 爬取王者荣耀全皮肤

热门推荐

君莫笑

09-04

22万+

王者荣耀全皮肤图片爬取

python爬百度贴吧etree用户名_Python 爬虫练习：爬取百度贴吧中的图片

weixin_39913105的博客

12-17

166

背景：最近开始看一些Python爬虫相关的知识，就在网上找了一些简单已与练习的一些爬虫脚本实现功能：1，读取用户想要爬取的贴吧2，读取用户先要爬取某个贴吧的页数范围3，爬取每个贴吧中用户输入的页数范围内的每个帖子的链接4，爬取每个帖子中的图片，并下载到本地。开发环境：Python 3.7 , lxml, urllib思路分析：1，指定贴吧URL的获取比如我们进入“秦时明月汉时关”吧?后面为查询字符...

爬虫练习--爬取股票数据

qinlingheshang的博客

03-30

2406

爬取股票数据步骤从东方财富网找到上市公司的股票代码并保存根据股票代码去百度股市通去查找相关股票的具体信息并保存代码 #-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import traceback import re import xlwt def getHTMLText(ur...

python爬取百度搜索_使用Python + requests爬取百度搜索页面

weixin_31970409的博客

02-04

1万+

想学一下怎样用python爬取百度搜索页面，因为是第一次接触爬虫，遇到一些问题，把解决过程与大家分享一下1.使用requests爬取网页首先爬取百度主页www.baidu.comimport requestsurl = "http://www.baidu.com"html = requests.get(url)print(html.text)很简单，调用get函数，传入url，就能提取出页面元素但...

Python基础爬虫-爬取百度翻译

acarsar的博客

12-23

6548

爬取百度翻译这种网站的特点就是在不刷新整个页面，或者不改变网址的情况下，局部刷新网页，通过异步加载方式返回json格式的数据。一. 分析网址百度翻译网址：https://fanyi.baidu.com 当我们输入一个单词时，例如“wolf”，可以发现整个网页的地址没有变化，只是局部刷新了。按f12键打开抓包工具，选择Network中的XHR选项后，重新输入可以发现从服务器返回了一些j...

python爬取百度搜索，参考代码

小畅的博客

06-29

910

python爬取百度搜索，参考代码Ai学的代码，几秒钟就写完了，贼快。注意：需要安装bs4模块。

Python3网络爬虫--爬取百度搜索结果（附源码）

懷淰メ的博客

09-29

9753

本次内容比较基础，是对静态网页进行数据提取，主要依赖xpath。百度存在访问频率限制的反爬，所以加入了一秒的延时。xpath的定位方法可以参考xpath定位中详解id 、starts-with、contains、text()和last() 的用法欢迎大家提出自己的看法，思路、代码方面有什么不足欢迎各位大佬指正、批评！

python爬取知乎问题_Python-爬取知乎某个问题下的所有回答

06-11

需要使用Python编程语言来爬取知乎问题下的所有回答。具体步骤如下： 1. 首先需要安装Python的requests和beautifulsoup4库，用于发送HTTP请求和解析HTML页面。 2. 获取知乎问题页面的URL，可以手动复制粘贴，或者使用爬虫自动获取。 3. 使用requests库发送GET请求，获取知乎问题页面的HTML源代码。 4. 使用beautifulsoup4库解析HTML源代码，获取所有回答的信息。 5. 对每个回答进行解析，获取回答的文本、作者、点赞数、评论数等信息。 6. 将获取到的信息存储到本地文件或数据库中。下面是一段示例代码，可以爬取知乎某个问题下的所有回答： ```python import requests from bs4 import BeautifulSoup # 知乎问题页面的URL url = 'https://www.zhihu.com/question/xxxxxx' # 发送GET请求，获取页面HTML源代码 response = requests.get(url) html = response.text # 解析HTML页面，获取所有回答的信息 soup = BeautifulSoup(html, 'html.parser') answers = soup.find_all('div', class_='List-item') # 遍历每个回答，解析并存储信息 for answer in answers: # 解析回答文本、作者、点赞数、评论数等信息 text = answer.find('div', class_='RichContent-inner').get_text() author = answer.find('div', class_='ContentItem-head').get_text() upvotes = answer.find('button', class_='Button VoteButton VoteButton--up').get_text() comments = answer.find('button', class_='Button ContentItem-action Button--plain Button--withIcon Button--hoverCard').get_text() # 将信息存储到本地文件或数据库中 with open('answers.txt', 'a', encoding='utf-8') as f: f.write(f'{author}\n{text}\n赞同数：{upvotes} 评论数：{comments}\n\n') ``` 需要注意的是，爬取知乎数据属于个人行为，需要遵守知乎的相关规定，不得用于商业用途。另外，爬取速度也需要适当控制，避免给服务器造成过大的负担。