Python第一课——访问网址

最新推荐文章于 2024-08-12 09:00:00 发布

Li_GaoGao

最新推荐文章于 2024-08-12 09:00:00 发布

阅读量1.2k

点赞数

分类专栏： Basic pthon Python入门及进阶

本文链接：https://blog.csdn.net/legalhighhigh/article/details/79372095

版权

Basic pthon 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

Python入门及进阶

15 篇文章 3 订阅

订阅专栏

python爬虫

爬虫已经存在很长时间了，是学习编程入门非常好的练手项目，因为用python做爬虫简单靠谱。而且是最近火的不能再火的python在AI的应用异军突起，所以选择用python学习爬虫绝对意义非凡。
爬虫，顾名思义就是一只在互联网上爬来爬去的虫，并且爬过的地方都会将此处的信息记录下来。在信息爆炸的时代，能有效获取数据或是其他信息，是未来世界有利的生存武器。数据分析在金融和AI方面的应用已经不可言喻了。

而做好数据分析首先要有能做到有效的数据获取，数据存储，数据提取，数据分析，数据挖掘，数据可视化等等很多大的点。
基本框架：

知识储备：

主要需要了解一些知识点如下：
1：HTTP 协议
2：前端技术（JavaScript和HTML）
3：正则表达式和Xpath(文字匹配利器和网页保存路径语言XML)

介绍下一个简单的爬虫框架如下：
py2.7和3.6通用。

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
#url = "http://item.jd.com/2967929.html"

try:

    kv ={‘User-Agent’:‘Mozilla/5.0’}
    r = requests.get(url,headers = kv) 
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[100:200])

except:
    print("失败")