python 爬虫笔记--简单静态

最新推荐文章于 2024-07-14 15:21:37 发布

fuyunkaka

最新推荐文章于 2024-07-14 15:21:37 发布

阅读量750

点赞数

分类专栏：笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/fuyunkaka/article/details/51518004

版权

笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

不太懂网页上的专业术语。。。

1.首先查看页面源代码：查看要爬取的数据是什么样的，在哪个标签下，能不能用xpath或者bs4取出来。

2.f12此页面，刷新查看页面响应时，能看到的信息。主要是消息头里的请求网址，请求方法，host,user-agent,cookie以及参数里的数据。及时查看响应，看出现的页面是否为自己想要的。

3.如果是post方法：要记录参数里的数据：postdata={}，字典型写入看到的数据。如果是get方法，查看参数时，可以是params={}，同样写入参数。

要爬取的页面网址就是请求网址。

4.写爬虫语句：

session=requests.session()
url=""
user_agent=""
headers={'User-Agent':user_agent,'Host':''}
#必要的参数也可以写上
postdata={}
params={}

html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text

html=session.get(url=url,headers=headers,cookies=cookies,params=params)

5.分析获取的网页，获取其中的数据。主要用了requests+xpath的组合，比较容易。实在不行就用正则表达式。

Tip:xpath 要获取标签中某属性值，比如a标签，可以用：x=tree.xpath('//a[@href=""]/@href')。

要获取标签之中的文本，可以用：x=tree.xpath('//a[@href=""]/text()')

6.数据存入数据库

简单的可以用pymssql模块

conn=pymssql.connect(数据库参数)

Tip:sql语句：要注意变量的应用，可以用%s代替。

fuyunkaka

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫笔记--简单静态

不太懂网页上的专业术语。。。1.首先查看页面源代码：查看要爬取的数据是什么样的，在哪个标签下，能不能用xpath或者bs4取出来。2.f12此页面，刷新查看页面响应时，能看到的信息。主要是消息头里的请求网址，请求方法，host,user-agent,cookie以及参数里的数据。及时查看响应，看出现的页面是否为自己想要的。3.如果是post方法：要记录参数里
复制链接

扫一扫