![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HTML
Rnan-prince
知是行之始,行是知之成(1352638748@qq.com)
展开
-
学做网络爬虫【三】- 数据提取
页面解析和数据提取一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。原创 2020-06-30 00:40:51 · 428 阅读 · 0 评论 -
python基础 - json与jsonpath
数据提取之JSON与JsonPATHJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 2.7中自带了JSON模块,直接import json就可以使用了。官方文档:http://docs.python.org/library/json.htmlJson在线解析网站:htt原创 2020-07-01 00:31:28 · 205 阅读 · 0 评论 -
python基础 - Xpath 和 xml
什么是XMLXML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准W3School官方文档:http://www.w3school.com.cn/xml/index.aspXML 和 HTML 的区别数据格式 描述 设计目标 XML Extensible原创 2020-07-01 00:26:10 · 413 阅读 · 0 评论 -
学做网络爬虫【五】- Scrapy(框架)
Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。原创 2020-06-30 21:18:35 · 615 阅读 · 0 评论 -
学做网络爬虫【四】- 动态HTML
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。原创 2020-07-06 23:56:54 · 490 阅读 · 0 评论 -
HTTP和HTTPS请求与响应
HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。HTTP的端口号为8原创 2020-06-29 00:25:17 · 741 阅读 · 0 评论 -
HTTP响应状态码
1xx:信息100 Continue服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。101 Switching Protocols服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK请求成功(其后是对GET和POST请求的应答文档)201 Created请求被创建完成,同时新的资源被创建。202 Accepted供处理的请求已被接受,但是处理未完成。203 Non-authoritative Inform.原创 2020-06-29 00:09:44 · 500 阅读 · 0 评论 -
html中文件类型的accept属性
*.3gpp audio/3gpp, video/3gpp 3GPP Audio/Video *.ac3 audio/ac3 AC3 Audio *.asf allpication/vnd.ms-asf Advanced Streaming Format *.au audio/basic AU Audio *.css text/css Cascading Style Sheets *.csv text/csv Com原创 2020-06-29 00:03:36 · 558 阅读 · 0 评论