![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
白十月
商科转码的成长记录~~奥力给!
展开
-
json库的dumps()方法和loads()方法
python的json.dumps方法默认会输出成这种格式"\u535a\u5ba2\u56ed",要输出中文需要指定ensure_ascii参数为False,如下代码片段:json.dumps({‘text’:“中文”},ensure_ascii=False,indent=2)这里的indent是让json格式有换行空两格显示...原创 2020-08-14 17:27:30 · 996 阅读 · 0 评论 -
爬虫实例,获取豆瓣上某部电影的评论
import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport timedef get_one_page(url): #获取页面html try: headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWe原创 2020-08-12 16:16:00 · 1525 阅读 · 0 评论 -
爬虫中的响应和请求、爬虫基本原理
一、请求由客户端向服务端发出,可以分为4部分。请求方法、请求的网址、请求头、请求体1.请求方法包含GET方法和POST方法。GET方法传递的参数会包含在url中,大小不超过1024;POST主要用于登录。2.请求的网址 URL3.请求头,包含重要信息。Accept: 请求报头域,用于指定客户端可以接受哪些类型的信息。Accept-Encoding: 指定客户端可接受的内容编码。Accept-Language: 指定客户可接受的语言类型。Host:用于指定请求资源的主机IP和端口号,其内原创 2020-08-07 11:53:13 · 724 阅读 · 0 评论 -
正则表达式(匹配规则、匹配方法)
正则表达式测试工具:https://tool.oschina.net/regex/原创 2020-08-04 16:03:46 · 587 阅读 · 0 评论 -
网页基础
一、网页结构网页可以分为三大部分HTML、CSS和JavaScript。1.HTML:网页的基础架构就是HTML,不同类型的文字通过不同类型的标签表示,如图片用img标签表示,段落用p标签表示,它们之间的布局又常通过布局标签div嵌套组合而成,a 标签定义超链接,用于从一张页面链接到另一张页面,a元素最重要的属性是 href 属性,它指示链接的目标。各种标签通过不同的排列和嵌套形成了网页的框架。2.CSS:网页页面排版样式标准在网页中,一般会统一定义整个网页的样式规则,并写入CSS文件中(其后缀原创 2020-07-21 11:53:45 · 5149 阅读 · 0 评论