python 爬虫笔记--简单静态

不太懂网页上的专业术语。。。

1.首先查看页面源代码:查看要爬取的数据是什么样的,在哪个标签下,能不能用xpath或者bs4取出来。

2.f12此页面,刷新查看页面响应时,能看到的信息。主要是消息头里的请求网址,请求方法,host,user-agent,cookie以及参数里的数据。及时查看响应,看出现的页面是否为自己想要的。




3.如果是post方法:要记录参数里的数据:postdata={},字典型写入看到的数据。如果是get方法,查看参数时,可以是params={},同样写入参数。

要爬取的页面网址就是请求网址。

4.写爬虫语句:

session=requests.session()
url=""
user_agent=""
headers={'User-Agent':user_agent,'Host':''}
#必要的参数也可以写上
postdata={}
params={}

html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text

html=session.get(url=url,headers=headers,cookies=cookies,params=params)

5.分析获取的网页,获取其中的数据。主要用了requests+xpath的组合,比较容易。实在不行就用正则表达式。

Tip:xpath 要获取标签中某属性值,比如a标签,可以用:x=tree.xpath('//a[@href=""]/@href')。

                 要获取标签之中的文本,可以用:x=tree.xpath('//a[@href=""]/text()')

6.数据存入数据库

简单的可以用pymssql模块

conn=pymssql.connect(数据库参数)

Tip:sql语句:要注意变量的应用,可以用%s代替。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值