huangjiayue2009-CSDN博客

原创写爬虫的通用步骤

1、url—知道url的地址的规律和总的页码数：构造url地址的列表----start_url2、发送请求，获取响应—requests3、提取数据—返回json字符串：json模块—返回的是html字符串：lxml模块配合xpath提取数据4、保存...

2020-05-27 16:47:48 275 1

一、format:字符串格式化的一种方式二、列表推导式—帮助我们快速地生成包含一堆数据的列表‘[i+10 for i in range(10)]’–>[9,10,…,19]‘[“10月{}日”.format(i) for i in range(1,10)]’–>[“10月1日”,“10月2日”…,“10月9日”]三、字典推导式—帮助我们快速地生成包含一堆数据的字典{i+10:i for i in range(10)}#{10:0,11:1,12:2,…,19:9}{“a{}”

2020-05-26 16:50:01 143

原创 xpath和lxml知识点

1、xpath--一门从html中提取数据的语言2、xpath的语法--xpath helper插件：帮助我们从‘elements’中定位数据--1）选取节点（标签） ---'/html/head/meta'能够选中html下的head下的所有的meta标签--2）'//'：能够从任意节点开始选择 ---'//li'：当前页面上的所有的li标签 ---'/html/head//link'head下的所有的link标签--3）'@符号的用途' ---选择某个具...

2020-05-26 12:55:51 173

转载 Python笔记 class中的init()方法

转载：https://blog.csdn.net/weixin_40650484/article/details/97391376

2020-05-26 09:20:45 340

原创写python爬虫用到的几个工具

一、浏览器抓包工具作用主要是解析浏览器客户端与服务器之间的消息交互。可以看到HTTP消息头、消息行和消息体。得到爬虫程序必须的 UA、cookie等信息，并能够分析不同的浏览器请求所带的参数以及浏览器的响应。以CHROME为例，在网页右键检查，或直接F12就可以打开抓包工具（开发工具）。其中最有用的是NETWORK 这个tab，可以看到各个消息，JS,CSS，以及图片调用的情况。二、代码格式化工具在线网址：https://www.bejson.com/将抓包获取的js文件拷贝在在线工具中

2020-05-25 13:13:15 527

原创 iis 站点中文乱码解决方案(整合版)

**iis 站点中文乱码解决方案(整合版)问题描述：iis乱码问题在iis下发布python文件，访问时出现部分中文乱码原理：浏览器编码和Python中的CGI程序文件编码格式不统一解决方案：四个步骤解决iis乱码问题确认vs文件保存模式为UTF-8在vs里打开页面文件，选中后，文件-高级保存选项-unicode(utf-8)-代码页65001确定线上发布后的文件编码格式用notepad++打开页面文件查看编码格式为：utf-8 无BOM格式编码发现改为utf-8 格式编码后

2020-05-11 17:34:44 3914

huangjiayue2009的博客

原创写爬虫的通用步骤

原创 python基础知识点

原创 xpath和lxml知识点

转载 Python笔记 class中的init()方法

原创写python爬虫用到的几个工具

原创 iis 站点中文乱码解决方案(整合版)

空空如也

空空如也

原创 写爬虫的通用步骤

原创 python基础知识点

原创 xpath和lxml知识点

转载 Python笔记 class中的__init__()方法

原创 写python爬虫用到的几个工具

原创 iis 站点中文乱码 解决方案(整合版)

空空如也

空空如也

原创写爬虫的通用步骤

转载 Python笔记 class中的init()方法

原创写python爬虫用到的几个工具

原创 iis 站点中文乱码解决方案(整合版)