自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 自学爬虫初体验(三)

三、lxml我目前所了解的,在爬虫上这个的作用就是爬取网页html中的指定内容1、直接解析html字符串import requestsfrom lxml import etreeurl='https://www.taobao.com/'res=requests.get(url)text=res.textprint(text)html=etree.HTML(text)print(html)#<Element html at 0x218751cec80>r=html.

2021-05-26 16:04:37 248

原创 自学爬虫的初体验(二)

4、Cookies先看看百度百科上对于Cookies的解释挺多挺晦涩的,我个人理解了一下:①Cookies是存储在本地的文本文件。②Cookies的存在是有期限的。③Cookies不太安全,不会存储一些隐私信息。打个比方,在CSDN中进行登录之后,关掉网页,再次打开,你无需再次输入账号密码登录,便回到上次关闭网页的登陆状态。当然,若是很久没有输入相关信息确保用户身份,相关Cookies文件便会失效,这个时候就需要重新登录、验证用户身份。当然账号密码之类的并不会保存在Cookies中,Cookie

2021-05-26 12:46:27 83

原创 自学爬虫的初体验(一)

一、爬虫是什么爬虫就是将互联网上的信息提取并下载到本地的过程1、由客户端发起请求(url,data)2、服务器响应内容(html、css、js、json)请求方式:1、GET2、POST:需要发送相关的数据(包括但是不限于登录网站的密码)二、requests库1、一些基本用法import requestsurl='https://www.csdn.net/'res = requests.get(url)print(res)#<Response [200]>print

2021-05-25 13:21:25 922 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除