- 博客(3)
- 收藏
- 关注
原创 自学爬虫初体验(三)
三、lxml我目前所了解的,在爬虫上这个的作用就是爬取网页html中的指定内容1、直接解析html字符串import requestsfrom lxml import etreeurl='https://www.taobao.com/'res=requests.get(url)text=res.textprint(text)html=etree.HTML(text)print(html)#<Element html at 0x218751cec80>r=html.
2021-05-26 16:04:37 248
原创 自学爬虫的初体验(二)
4、Cookies先看看百度百科上对于Cookies的解释挺多挺晦涩的,我个人理解了一下:①Cookies是存储在本地的文本文件。②Cookies的存在是有期限的。③Cookies不太安全,不会存储一些隐私信息。打个比方,在CSDN中进行登录之后,关掉网页,再次打开,你无需再次输入账号密码登录,便回到上次关闭网页的登陆状态。当然,若是很久没有输入相关信息确保用户身份,相关Cookies文件便会失效,这个时候就需要重新登录、验证用户身份。当然账号密码之类的并不会保存在Cookies中,Cookie
2021-05-26 12:46:27 83
原创 自学爬虫的初体验(一)
一、爬虫是什么爬虫就是将互联网上的信息提取并下载到本地的过程1、由客户端发起请求(url,data)2、服务器响应内容(html、css、js、json)请求方式:1、GET2、POST:需要发送相关的数据(包括但是不限于登录网站的密码)二、requests库1、一些基本用法import requestsurl='https://www.csdn.net/'res = requests.get(url)print(res)#<Response [200]>print
2021-05-25 13:21:25 922 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人