python初学者学习笔记(一)简单的爬虫

这只是我的一个学习笔记,方便以后回来复习。。。
每个程序都是运行过的

#-*- coding:utf8 -*-
import requests
from lxml import etree

cook = {"cookie": "这里填写从fiddler中得到的cookie"}
url = 'http://weibo.cn/'
html = requests.get(url, cookies=cook).content
print(html)
selector = etree.HTML(html)
content = selector.xpath('//span[@class="ctt"]')
for each in content:
    text = each.xpath('string(.)')
    b = 1
    print(text)

1、建一个字典来存放cookies
用.cn的原因是手机版页面比较好爬取,反正电脑版的网页用这个小程序爬不到><,事实上电脑版和手机版的内容是一样的
2、接着创建一个字符串来存url
3、用requests.get(这是最基本的GET请求)将网页的内容提取下来
这里用content的原因是:用txt会出现乱码,具体原因给忘了
其他的的请求我还没试过….不过形式好像是一样的:

requests.post(“网站/post”) #POST请求
requests.put(“网站/put”) #PUT请求
requests.delete(“网站/delete”) #DELETE请求
requests.head(“网站/get”) #HEAD请求
requests.options(“网站/get”) #OPTIONS请求

4、用etree.HTML来解析网页数据
5、用正则表达式将网页的中文部分提取并打印

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值