关于python的简单学习笔记1

最新推荐文章于 2021-02-03 07:07:24 发布

NEMOlv

最新推荐文章于 2021-02-03 07:07:24 发布

阅读量179

点赞数

本文链接：https://blog.csdn.net/qq_20050561/article/details/109251654

版权

关于python的简单学习笔记

#coding=utf-8
#编码规范
    #coding=utf-8 使代码可以包含中文
    #if __name__=="__mzin__":   用于main的开始
#爬虫流程
#1.准备工作
'''
导入模块，自带库：sys，re；第三方库：urllib3，xlwt，beautifulsoup
导入方式：①import XXX
        ②from XXX（某个库或文件夹） import XXX（某个库中的关键字或文件夹中的库）
获得网站的URL
获得网站HTML中的header信息和cookie
'''
#2.获取数据
#①get请求
from urllib import request,parse,error
# import urllib.request
# import urllib.parse
# import urllib.error
# response = urllib.request.urlopen('http://www.baidu.com')
# print(response.read().decode('utf-8'))
#②post请求（以及超时处理，header修改，获取特定信息）

#
#
#
url = 'http://httpbin.org/post'
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'Host':'httpbin.org'
}
dict={
    'Hello':'world'
}
data = bytes(parse.urlencode(dict),encoding='utf-8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))  #获取响应体的内容，字节流的数据，用utf-8格式解码
#print(response.status)                 状态码 判断请求是否成功
#print(response.getheaders())           响应头 得到的一个元组组成的列表
#print(response.getheader('Server'))    得到特定的响应头
#3.解析内容
#bs4的使用
'''
Tag                         标签及其内容，且只拿它遇到的第一个
such as：title，head，div……
写法：bs.title
NavigableString             标签里的内容
写法：bs.title.string
     bs.title.attrs         以字典形式输出获得标签里一一对应的键与值
BeautifulSoup               整个文件
Comment                     注释

file = open（”./XXX“,"rb"）               打开某文件，且以二进制的格式读取
html = file.read()                       读这个文件  
bs = BeautifulSoup(html,"html.parser")   用BeautifulSoup的html.parser解释器进行解释
'''
#4.保存数据

NEMOlv

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于python的简单学习笔记1

关于python的简单学习笔记#coding=utf-8#编码规范 #coding=utf-8 使代码可以包含中文 #if __name__=="__mzin__": 用于main的开始#爬虫流程#1.准备工作'''导入模块，自带库：sys，re；第三方库：urllib3，xlwt，beautifulsoup导入方式：①import XXX ②from XXX（某个库或文件夹） import XXX（某个库中的关键字或文件夹中的库）获得网站的URL获得网
复制链接

扫一扫