涅·默-CSDN博客

原创 Django（一）

初识Django软件框架一个软件框架是由其中各个软件模块组成的，每一个模块都有特定的功能，模块与模块之间通过相互配合来完成软件的开发软件框架是针对某一类软件设计问题而产生的MVC 框架软件设计模式MVC 的产生理念：分工，让专门的人做专门的事MVC的核心思想：解耦M:Model ，模型，和数据库进行交互V:View 视图，产生HTML页面C ： Controller 控制器，接收请求，进行处理，与M和V进行交互，返回应答。MVTDjango中的三个

2020-05-28 12:11:45 120

原创爬虫（七）笔记

动态html 技术介绍## selenium 和 phantomjsseleniumselenium是一个Web 的自动化测试工具，最初是为了网站自动化测试而开发的，selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏phantomjsphantomjs 是一个基于Webkit的“无界面”浏览器，它会把网站加载到内存并执行页面上的JavaScript安装一下 selen

2020-05-20 21:58:10 113

原创爬虫（六）B站案例分析

一.准备url要爬取的B站的鬼畜部分，选择了教程演示（视频个数比较少），在搜索里进行页面上信息的搜索来确定url得到url:https://api.bilibili.com/x/web-interface/newlist?callback=jqueryCallback_bili_8038458089269198&rid=127&type=0&pn=1&ps=20&jsonp=jsonp&_=1589855603296url 进行处理对url

2020-05-19 22:19:21 844

原创爬虫（五）糗事百科案例分析

参照爬虫(四)套路总结,实现糗事百科数据的爬取.一.准备url爬取糗事百科的段子部分,确定url获取url列表二.发送请求，获取响应三.提取数据确定位置四.保存代码如下：import requestsimport jsonfrom lxml import etreeclass Qiubaispider(): def __init__(self): self.url_temp ="https://www.qiushibaike.com/text

2020-05-17 22:50:52 234

原创爬虫(四)套路总结

爬虫(四)套路总结一.准备url准备start_urlurl 地址规律不明显，总数不确定通过代码提取下一页的urlxpath寻找url地址，部分参数在当前的响应中（比如，当前页码数和总的页码数在当前的响应中）准备url_list页码总数明显url地址规律明显二.发送请求，获取响应添加随机的User-Agent，反反爬虫添加随机的代理IP在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookiecooki的处理可以使用session 来j

2020-05-17 22:29:00 163

原创爬虫（三）笔记

正则表达式常用正则表达式的方法：re.compile(编译)pattern.match(从头找一个)pattern.search(找一个)pattern.findall(找所有)pattern.sub(替换)正则使用的注意点re.findall(“a(.*?)b”,“str”)，能够返回括号中的内容，括号前后的内容起到定位和过滤的效果原始字符串r 待匹配字符串中有反斜杠的时候，使用r ,能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n‘\s’能够匹配空白字符，不仅仅包含空格

2020-05-16 22:30:34 129

原创爬虫（二）笔记

数据提取方法基础知识Json 知识点正则表达式xpath和lxml数据分类结构化数据Json,xml等处理方法：转化为python数据类型非结构化数据html处理方法：正则表达式，xpath数据提取之JSON由于把json 数据转化成python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json数据的URL，就会尽量使用这种URLjson 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互

2020-05-15 21:20:23 90

原创爬虫（一）笔记

爬虫的概念爬虫是模拟浏览器发送请求，获取响应爬虫的流程url —> 发送请求，获取响应 —>提取数据—>保存发送请求，获取响应 —>提取url页面上的数据在哪里当前url地址对应的响应中其他的url地址对应的响应中比如Ajax 请求中js生成的部分数据在响应中全部通过js生成requests 中解决编解码的方法修改编码方式：response.encoding=’’response.content.decode()respons

2020-05-14 12:38:51 96

weixin_42485847的博客