python爬虫爬取数据遇到的问题

自学爬虫中遇到的一点问题和部分解决方法

本人大一新手,学python两个月,目前都是在网上找爬虫教学尝试自学(最初的目的是爬美女图片)

最开始接触爬虫的时候是一个前辈给我的代码和一个api的网站聚合数据

感觉这个网站还是很友好的在这里插入图片描述
废话不多说,直接说问题,上代码

import urllib.request  # 网页请求
import urllib.parse     # url的解析,合并,编码,解码
import json
txt = input("请输入成语:")
chengyu =  urllib.parse.quote(txt)  # 把中文编码
# 地址 加工
url = '聚合数据返回的api'
a = urllib.request.urlopen(url) # 请求
ys = a.read().decode('utf-8')   # 读取并编码
zd = json.loads(ys)# 以JSON格式转换成字典
print(zd['result']['chengyujs'])
print(zd)

这个代码我仅在聚合数据提供的api中使用过,对其他的网页好像是用不了的

在这里插入图片描述
代码中的需要填的api应该使用请求地址请求参数组合使用,中间用?隔开

但是只能使用别人提供的api就违背的我的目的呀(美女美女!!

所以又在CSDN中找到一个超详细的爬虫新手教程

参照这个爬取到了百度贴吧和国外的一个图片网站

import requests
a = requests.get(url="https://stocksnap.io/")

print(a)

一开始爬取图片网站的时候返回<Response [200]>

然后通过百度查到了解决方法

import requests
a = requests.get(url="https://stocksnap.io/")
a.text
print(a)

问题就完美的解决了,运行结果为:在这里插入图片描述
但是又有了一些问题:

为什么加个text就可以成功访问,一开始还以为是没有加浏览头的问题

爬取出来的网页数据怎么把其中的图片和视频链接(src)提取出来

为了避免和我一样的新手走不必要的弯路,说一下一些词汇的意思吧

url : 网页地址,就是浏览器上面的地址栏,复制就行

headers : 请求头,浏览器头,随便怎么叫,有些网页不让我们直接爬取他们的数据,所以加了反爬虫的代码,请求头就是为了模拟浏览器访问

爬取出来的数据应该都是str形式的,所以可以通过最上面的代码用json模块转码为字典形式来方便分割

有用的话收藏一下吧!!!为了美女!!!

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
可以使用Python爬虫爬取金融数据。根据引用中提到的步骤,你可以通过以下方法实现: 1. 准备所需的数据信息。 2. 使用Python爬虫去访问证券网站、财经网站等金融数据源,获取数据。你可以使用urllib库的request模块发送请求获取数据。 3. 对获取数据进行可视化,可以使用相关的数据可视化工具,如matplotlib、seaborn等,来展示数据的趋势和关联性。 4. 分析数据,根据你的需求,分析出每日最高价、最低价、收盘价之间的相关性以及价格的预测。你可以使用pandas和numpy等库来进行数据分析和预测。 需要注意的是,在爬取金融数据时,要注意不要频繁地请求同一个网站,避免被网站限制或封禁IP。如果遇到这种情况,可以使用爬虫代理IP来进行解决。引用中给出了一个示例代码,展示了如何使用代理IP进行数据爬取的方法。 总之,使用Python爬虫可以帮助你获取财经数据,进行数据分析和预测,为金融分析提供有价值的信息。而且在金融行业中,掌握Python数据分析技能已经成为必备的能力,具有一定的就业竞争力。引用和中提到了金融行业对Python技能的需求和重要性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python爬虫采集财经数据](https://blog.csdn.net/Laicaling/article/details/117293846)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量](https://blog.csdn.net/weixin_49891576/article/details/127694898)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值