关于python的简单学习笔记1

关于python的简单学习笔记

#coding=utf-8
#编码规范
    #coding=utf-8 使代码可以包含中文
    #if __name__=="__mzin__":   用于main的开始
#爬虫流程
#1.准备工作
'''
导入模块,自带库:sys,re;第三方库:urllib3,xlwt,beautifulsoup
导入方式:①import XXX
        ②from XXX(某个库或文件夹) import XXX(某个库中的关键字或文件夹中的库)
获得网站的URL
获得网站HTML中的header信息和cookie
'''
#2.获取数据
#①get请求
from urllib import request,parse,error
# import urllib.request
# import urllib.parse
# import urllib.error
# response = urllib.request.urlopen('http://www.baidu.com')
# print(response.read().decode('utf-8'))
#②post请求(以及超时处理,header修改,获取特定信息)

#
#
#
url = 'http://httpbin.org/post'
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'Host':'httpbin.org'
}
dict={
    'Hello':'world'
}
data = bytes(parse.urlencode(dict),encoding='utf-8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))  #获取响应体的内容,字节流的数据,用utf-8格式解码
#print(response.status)                 状态码 判断请求是否成功
#print(response.getheaders())           响应头 得到的一个元组组成的列表
#print(response.getheader('Server'))    得到特定的响应头
#3.解析内容
#bs4的使用
'''
Tag                         标签及其内容,且只拿它遇到的第一个
such as:title,head,div……
写法:bs.title
NavigableString             标签里的内容
写法:bs.title.string
     bs.title.attrs         以字典形式输出获得标签里一一对应的键与值
BeautifulSoup               整个文件
Comment                     注释

file = open(”./XXX“,"rb")               打开某文件,且以二进制的格式读取
html = file.read()                       读这个文件  
bs = BeautifulSoup(html,"html.parser")   用BeautifulSoup的html.parser解释器进行解释
'''
#4.保存数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值