- 博客(27)
- 收藏
- 关注
原创 爬虫部署总结
安装相关库1,爬虫的部署需要用到scrapyd,scrapyd-client模块安装命令:pip3 install scrapyd,pip3 install scrapyd-client安装完成后用scrapyd-deploy -h命令来检验是否安装成功此外,还需要修改scrapy项目目录下的scrapy.cfg配置文件首先需要修改scrapyd.egg (项目的配置文件)[deplo...
2019-09-22 14:37:30 239
原创 scrapy_redis分布式爬虫总结
1.我们为什么要用到分布式爬虫?Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式安装命令:pip3 install scrapy-redis2.scrapy-redis的四种组件Scrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)1.Schedu...
2019-09-21 16:08:20 259
原创 多线程与线程池的使用
线程python的thread模块是比较底层的模块,python的threading模块是对thread做了一些包装的,可以更加方便的被使用,使用模块 import threading要知道线程执行是无顺序的,线程资源是共享的threading.Thread参数介绍target:线程执行的函数name:线程名称args:执行函数中需要传递的参数,元组类型kwargs:传参数(字典)...
2019-09-10 19:36:01 211
原创 pyquery解析器的使用
pyQuery解析器pyquery解析器简介pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手pyquery的安装与使用我们可以使用命令:pip3 install pyquery来安装它**注意:**由于 pyquery 依赖于 lxml ,要先安装 lxml ,否则会提示失...
2019-09-10 19:10:04 151
原创 BeautifulSoup4解析器和CSS选择器
BeautifulSoup41,什么是BeautifulSoup4?和 lxml 一样,Beautiful Soup 也是python的一个HTML/XML的解析器,用它可以方便的从网页中提取数据,Beautiful Soup相比lxml操作起来更简单,但是速度较慢,这也是它的缺点lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM...
2019-09-10 18:55:24 207
原创 xpath选择器的使用
xpath选择器的使用1,什么是xpath选择器?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历,它比正则操作起来更方便,简单,容易接受说到这,我们来说一下xml,什么是xml?XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTML...
2019-09-09 19:24:47 287
原创 requests的使用
Request1,什么是requets?requests 的底层实现其实就是 urllib,Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2.6–3.5,而且能在PyPy下完美运行。2,安装命令 pip3 install requests3,request的get请求和post请求 我们先来看下get请求GE...
2019-09-09 19:09:37 183
原创 爬虫正则总结
urllib说完,接下来说下正则,简单来说,我们在爬虫使用正则就是用提取数据的,我们使用正则里的规则在网页中匹配出我们想要的数据,它有许多规则,我们来说一下常用的几个首先是单字符匹配,. 匹配除了换行符之外的任意字符\d 匹配数字0-9 =>[0-9] => ^\D\D 匹配非数字\s 匹配空白字符(空格 \n \r \t)\S 匹配非空白字符\w 匹配单词字符[...
2019-09-07 15:12:13 123
原创 urllib库总结
开始复习爬虫,这里做了一个utllib和正则的小总结,了解一下就好在Python中有很多库可以用来抓取网页,urllib就是其中的一个库,就是用来抓取网页的,urllib有几个主要的模块------->request模块,它是urllib最基本的http请求模块,可以用来模拟发送请求,就像在浏览器中输入网址,然后敲击回车键一样,使用的时候只需要给库方法传入相关的URL和相关的参数即可....
2019-09-07 15:01:12 236
原创 分布式爬虫和爬虫部署
今天学习了分布式爬虫和爬虫的部署,分布式爬虫也叫scrapy_redis,Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式,我们使用命令:pip3 install scrapy-redis来安装,Scrapy-redis提供了下面四种组件:Scheduler2.Duplication Filter3.I...
2019-06-19 09:07:18 918
原创 爬虫Scrapy框架总结
Scrapy框架是爬虫最常用的框架,它是一个用纯python写的框架,Scrapy 使用了 Twisted['twɪstɪd] 异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。这里要说一下同步和异步的概念异步:调用在发出之后,这个调用就直接返回,不管有无结果非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状...
2019-06-16 15:58:39 378
原创 transform和animation动画
在css中transform可以变换例如:1、translate(x,y) 设置盒子位移2、scale(x,y) 设置盒子缩放3、rotate(deg) 设置盒子旋转4、skew(x-angle,y-angle) 设置盒子斜切5、perspective 设置透视距离6、transform-style flat | preserve-3d 设置盒子是否按3d空间显示7、transla...
2019-01-07 19:17:57 668
原创 transition动画
今天主要了解了长沙市中的动画,准确来说是transition动画一、CSS3 transition动画1、transition-property 设置过渡的属性,比如:width height background-color2、transition-duration 设置过渡的时间,比如:1s 500ms3、transition-timing-function 设置过渡的运动方式4、t...
2019-01-07 18:52:57 331
原创 12-27 定位
相对定位:position:relative来开启相对定位使用相对定位,位置从自身出发相对定位是相对于元素在文档中的初始位置——首先它出现在它所在的位置上(即不设置position时的位置,然后通过设置垂直或水平位置,让这个元素“相对于”它的原始起点进行移动;绝对定位:绝对定位指使元素相对于html元素或离他最近 的祖先定位元素进行定位。当将position属性设置为absolute时...
2019-01-02 14:42:49 88
原创 开班信息
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>开班信息</title> <style type="text/css"> *{ margin: 0;
2019-01-02 14:36:35 159
原创 12-28作业
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>翻页</title> <style type="text/css"> *{ padding: 0px
2019-01-02 14:34:31 87
原创 雪碧图
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>雪碧图作业</title> <style type="text/css"> .box1.link{
2019-01-02 14:30:57 85
原创 表单的使用
前面我们已经学习了表格,下面又要学习一个新的知识-----表单我们该如何来使用表单呢?首先使用标签来创建一个表单使用form创建的仅仅是一个空白的表单,我们还需要向form中添加不同的表单项表单中必须要有两个属性action和methodaction表示提交表单到服务器中的地址method表示提交表单的方法设置请求方式:method=“post”表单项表单有很多不同的样式文本框...
2019-01-02 14:13:02 121
原创 12-21列表 和文本格式化
今天学习了前端里列表的用法列表分为三种1.无序列表2.有序列表3.定义列表无序列表用ol标签表示如: 列表项1 列表项2 列表项3有序列表用ul标签表示如: 列表项1 列表项2 列表项3定义列表用dl表示如: 定义项1 定义描述1 定义项2 定义描述2 定义项3 定义描述3文本格式化px如果我们将一个图片放大的话,我们会发现一个...
2019-01-02 13:59:58 107
原创 12-29
用background-color来为元素设置属性,需要指定一个颜色值,当指定了一个颜色以后,整个元素的可见区域都会使用这个颜色作为背景色如果不设置背景颜色,元素默认背景颜色为透明,实际上会显示父元素的背景颜色用background-image可以为元素指定背景图片,它与backgrond-color类似只不过这里是使用一个图片作为背景,我们还需要一个url地址作为参数,url地址需要指向一...
2018-12-29 16:40:23 96
原创 12-28
今天主要学习了一些表格的知识在Web的历史中,HTML的发挥了巨大的作用,最初创建表格是为了以表格的形式显示数据,后来表格变成了一个极受欢迎的布局工具但是有了CSS之后,CSS在布局网页方面实际上更出色,所以我们现在使用表格就是用来表示格式化的数据HTML中的表格可以很复杂,但是通常情况下,我们不需要创建过于复杂的表格表格的属性table:来创建一个表格tr:表示表格中的一行(tr可...
2018-12-28 19:44:40 127
原创 12-26
今天主要学习了这三大内容高度塌陷当浮动脱离文档流后,就会产生一些不好的效果,高度塌陷就是这么一个问题,它会导致文档流中父元素的兄弟元素,从后面顶上来,页面就会显示错误,可以用BFC来解决这个问题,当开启了BFC后,父元素子元素的外边距不再重叠也不会再被浮动元素覆盖还可以包含住浮动元素以上也算是BFC的功能相对定位每一个页面在文档流中都有一个自然位置,相对于这个位置对元素进行移动就叫...
2018-12-26 21:42:36 142
原创 12-25
学完今天的内容就可以写个简单的网页了display我们知道,我们不能为行内元素设置width,height,margi-top和margin-botto,但是我们可以通过修改display来修改元素的性质可选值:block:设置元素为块元素inline:设置元素为行内元素inline-block:设置元素为行内内元素none:隐藏元素(元素将在页面中完全消失)visibility...
2018-12-26 11:21:05 135
原创 12-24
进入前端学习已经一个星期了,今天重点学习了CSS里的关于字体的一些设置与一个重要部分我们可以通过font-family可以指定标签中文字使用的字体,例如:p{font-family:Arial}上边这行代码指定了p标签中使用名为arial作为字体也可以用font-family指定多个字体,例如p{font-family:Arial,Helvetica,sans-serif},浏览器会优先使...
2018-12-24 19:32:18 90
原创 12-20
今天还是具体学习了一些选择器后代选择器后代选择器可以更具标签的关系,为处在元素内部的代元素设置样式语法 祖先元素 后代元素 后代元素{}此外,还学习了伪类和伪元素有四个伪类可以让你根据访问者与该链接的交互方式,将链接设置成四种不同的状态正常链接-a:link访问过的链接-a:visited(只能设置字体颜色)鼠标滑过的链接-a:hover正在点击的链接-a:active...
2018-12-20 21:59:54 757 1
原创 12-19
今天是进入前端学习的第二天接触到了CSS选择器,CSS有很多选择器,所谓选择器就是用来告诉浏览器网页上的哪些元素设置成什么样的样式,元素选择器元素选择器也叫标签选择器,可以根据标签的名字从页面中选取制定的元素语法是标签名{}类选择器可以根据元素的class属性值选取元素语法是.classname{}ID选择器可以根据元素的id属性值选取元素语法#id{}这里要记住 id的属...
2018-12-19 21:32:34 107
原创 前端 餐厅游戏1-26关卡
1.plate2.bento3.fancy4.plate&amp;gt;apple5.#fancy&amp;gt;pickle6…small7.betno&amp;gt;orange plate&amp;gt;small8.bento&amp;gt;orange9.plate,bento10.*11.plate&amp;gt;*
2018-12-19 18:39:30 3126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人