自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 网站分析基础

几个基础概念访问相关指标:1.综合浏览量PV:是指某网页或网站被显示的次数2.访问次数(会话数)3.访问者数UV:每月、每周、每日指标间的运算:1.综合浏览量/访问次数=每次访问的综合浏览量------->数字越大,表示越多内容被浏览2.综合浏览量/访问者数=每个访问者的综合浏览量3.访问次数/访问者数=每个访问者的访问次数------>可以判断用户是经常访问网站,还是只是在需要的时候访问网站四个特殊指标:1.新访问者/回访者表示用户是第1次还是达2次以上访问网站。可以用

2020-08-26 23:46:24 428

原创 计算机网络-数据链路层

标题

2020-08-24 22:23:50 651

原创 计算机网络—物理层

物理层基本概念物理层考虑的是怎样才能在连接各种计算机传输媒体上传输数据比特流,而不是指具体的传输媒体。物理层的主要任务确定与传输媒体的接口的一些特性,这些特性有:机械特性:接口所用接线器的形状、尺寸等等电气特性:接口电缆的各条线上出现的电压范围功能特性:某条线上出现的某一电平的电压表示何种意义过程特性:对于不同功能的各种可能事件的出现顺序数据通信系统的模型一个数据通信系统包括三个部分:源系统、传输系统、目的系统常用术语数据:运送消息的实体信号:数据的电气的或电磁的表现模拟信

2020-08-14 16:01:08 356

原创 计算机网络—概述

写在前面的话由于工作原因,有一段时间没有更新博客了。最近收到的一些评论和赞又给了我重回博客的信心。(嘻嘻(●’◡’●),原来我写的东西还是有人看的,开心~~)最近在网上刷到一个不错的计网课程(需要的小可爱可以留言哟~),于是决定恶补恶补。所以这一系列博文算是我的学习笔记,欢迎交流!下面就开始吧!因特网概述几个概念:计算机网络:比较专业性的概念,由若干个结点(各个参与到计算机网络的设备)和连接这些结点的链路(连接的介质)组成。互连网(internet):网络的网络,即把许多网络通过路由器连接在

2020-08-07 17:27:39 525

原创 numpy、matplotlib基础

其他创建numpy.array的方法np.zeros(10)array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])np.zeros(10).dtypedtype('float64')np.zeros(10,dtype=int)array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])np.zeros((3,5))...

2019-08-18 19:51:55 300

原创 机器学习基础

关于数据机器学习,需要给算法提供大量的数据,从而在算法中得到相应的关系。所以,我们需要了解在机器学习领域,与数据相关的概念。下面以著名的鸢尾花数据集为例,来描述数据相关概念:注意:特征向量一般表述为列向量。为了表述方便,取前两个特征(即萼片长度、萼片宽度)分别作为每个样本点的x值、y值,可以绘制出这样的二维可视化结果:每个样本的本质就是在这两个特征组成的空间中的一个点,那么这个空...

2019-06-20 19:51:46 308 1

原创 什么是机器学习?

如今机器学习可谓大红大紫的热门领域,那么什么是机器学习呢?为了满足好奇心,我特意在618活动期间购买了bobo老师的机器学习课程。所以以下内容,都是我整理的学习笔记哟~所谓“机器学习”,就是让机器去学习。最早的机器学习应用就是垃圾邮件分辨,传统的解决思路就是编写规则,定义什么是垃圾邮件,然后让计算机去执行。但是这种解决思路存在很大的问题,因为:对于很多问题,规则很难制定。到底什么才算是...

2019-06-15 09:40:06 189 2

原创 elasticsearch搜索引擎的使用

elasticsearch介绍我们建立一个网站或者程序,希望添加搜索功能,发现搜索工作很难:我们希望搜索解决方案要高效我们希望零配置和完全免费的搜索方案我们希望能够简单的通过json和http与搜索引擎交互我们希望我们的搜索服务器稳定我们希望能够简单的将一台服务器扩展到上百台这个时候,就引出了 elasticsearch。ElasticSearch是一个基于Lucene的搜索服...

2019-02-11 12:29:16 1726

原创 Scrapy进阶开发

selenium介绍1.chromedriver不加载图片使用chromedrive时,我们可以设置不加载图片:chrome_opt = webdriver.ChromeOptions()prefs = {"profile.managed_default_content_settings.images":2}chrom_opt.add_experimental_option("prefs...

2019-02-07 13:21:37 337

原创 Scrapy突破反爬虫限制

爬虫与反爬虫的对抗过程对抗过程:scrapy 架构分析组件组成:运作流程:通过downloadmiddleware随机更换user-agentUser Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等...

2019-02-05 10:37:16 749

原创 CrawlSpiders全站爬取-拉勾网职位信息

当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的cookie当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉,使用自定义cookie所以当我使用settings的cookie的时候,又把COOKIES...

2019-02-03 17:10:29 370

原创 Scrapy爬取知乎所有问题和回答

1.https://www.zhihu.com/question/48429102查看所有回答网址2.加载数据url3.数据表两张4.没有获取所有url的入口,采用深度优先的算法

2019-01-23 23:59:39 2314

原创 selenium最新模拟登录知乎

selenium模拟登录,保存cookies使用selenium模拟登录,并把cookies保存到本地现在还没有遇到大家说的倒立文字验证码等后面遇到了,再做验证码处理由于知乎对selenium做了反爬处理,故此处需要接管本地已打开的浏览器,具体参考这篇文章:https://blog.csdn.net/qq_42206477/article/details/86477446from sel...

2019-01-16 18:02:48 2244

原创 解决selenium + chromedriver被知乎反爬的问题

写在前面前两天想爬知乎,发现用selenium模拟登录时出现了问题——点击登录按钮没反应。。。无论是用webdirver模拟点击,还是自己手动点击,都无法跳转到首页。后来发现大概是知乎识别出selenium了。把我们给反爬了。解决办法解决办法就是——用webdirver接管我们自己打开的浏览器,然后再进行登录操作。具体的接管方法,这篇文章已经说得非常清楚了:https://www.cn...

2019-01-14 15:36:40 14336 10

原创 理解cookie和session

HTTP是一种无状态的协议,为了分辨链接是谁发起的,需自己去解决这个问题。不然有些情况下即使是同一个网站每打开一个页面也都要登录一下。而cookie就是为解决这个问题而提出来的机制。cookie会根据从服务器端发送的响应报文内的一个叫做set-cookie的首部字段信息,通知客户端保存cookie。当下次客户端再往该服务器发送请求时,客户端会自动在请求报文中加入cookie值后发出去。服务器端...

2019-01-13 15:46:29 154

原创 Scrapy爬取伯乐在线所有文章

1.选择爬取框架scrapy介绍(百度百科、githup)2.确定目标网站 伯乐在线—最新文章(所有数据)3.下一页(为什么不用深度广度?因为网站提供了很全的url)4.爬取策略 两种方法:改url 获取下一页(选这个)5.scrapy安装 新建工程 配置(与Donj类似) 目录结构介绍6.调试自定义7.xpath 源代码与审查元素中代码区别...

2019-01-12 21:01:23 310

原创 python爬虫-搭建cookies池

写在前面前段时间跟着静觅大神学习了自建ip代理池,但是很多情况下,页面的某些信息需要登录才能查看。所以,今天有和大神学习了cookies池的搭建。整体思路Cookies池的架构和代理池类似,同样是4个核心模块(存储模块、生成模块、检测模块和接口模块):存储模块,负责存储每个账号的用户名、密码以及每个账号对应的Cookies信息,同时还需要提供一些方法来实现方便的存取操作。生成模块,...

2019-01-08 15:01:51 7166 3

原创 爬虫基础知识回顾

第三章 基础知识1.技术选型Scrapy VS Requests+bs4requests和bs4都是库,scrapy是框架。实际上框架是可以继承很多第三方库的,所以在scrapy中是可以加入requests和bs4的。scrapy基于twisted,是个异步IO的框架,所以性能十分高,性能是最大的优势。scrapy内置的css和xpath selector非常方便,所以在scrapy中...

2019-01-05 17:45:14 199

原创 python爬虫-自建IP代理池

写在前面最近跟静觅大神学习了维护代理池就借此机会整理一下整体思路代理池主要分为4个模块:存储模块、获取模块、检测模块、接口模块存储模块:使用Redis有序集合,用来做代理的去重和状态标识获取模块:定时从代理网站获取代理,将获取的代理传递给存储模块,并保存到数据库检测模块:定时通过存储模块获取所有代理,并对代理进行检测,根据不同的检测结果对代理设置不同的标识接口模块:通过Web A...

2019-01-01 18:35:21 2367

转载 并行、并发、异步、同步、阻塞与非阻塞

几个常见概念1.并发与并行并发:一个时间段内,有几个程序在同一个cpu上运行,但是任意时刻只有一个程序在cpu上运行并行:指任意时刻点,有多个程序同时运行在多个cpu上。并行的数量与cpu是一致的举个栗子: 老王爱喝茶,泡茶是老王的日常。老王泡茶要经历几个步骤:洗茶杯、放茶叶、烧开水、倒开水。老王泡茶有两种方式:-方式A:老王先烧开水,在烧开水的同时,洗茶杯、放茶叶。开水烧好后,直接...

2018-12-24 22:24:03 180

原创 python爬虫-批量下载qq音乐

目标这次要爬取的是qq音乐网站【排行榜】中所有的歌曲(共100首)网址:https://y.qq.com/n/yqq/toplist/4.html#stat=y_new.top.pop.logout废话不多说,直接开始吧!接口分析点击排行榜页面中的任意一首歌,进入到播放界面。打开开发者工具,重新刷新网页,寻找歌曲下载接口找呀找,找呀找发现许多media类型的,选择size最大的...

2018-12-14 18:30:16 8764 10

转载 浏览器工作原理详解

  这篇文章是以色列开发人员塔利·加希尔的研究成果。她在查阅了所有公开发布的关于浏览器内部机制的数据,并花了很多时间来研读网络浏览器的源代码。她写道: 在 IE 占据 90%市场份额的年代,我们除了把浏览器当成一个“黑箱”,什么也做不了。但是现在,开放源代码的浏览器拥有了过半的市场份额,因此,是时候来揭开神秘的面纱,一探网络浏览器的内幕了。呃,里面只有数以百万行计的C++ 代码…  本...

2018-12-09 09:14:25 298

原创 Scrapy抓取乐有家二手房信息与数据分析

通过抓取乐有家房产公司的信息,研究下长沙的房价。最后用Pandas进行了分析,并给出了数据可视化。准备工作乐有家长沙二手房信息网页(https://changsha.leyoujia.com/esf/)接着用Scrapy shell验证二手房XPath表达式#标题response.xpath('./div[@class="text"]/p[@class=&q

2018-12-08 00:26:57 954 3

原创 python 可迭代对象、迭代器与生成器小结

python 可迭代对象、迭代器与生成器小结这两天刚好学习了这一块的知识,就借机会整理下这三个概念的关系啦。废话不多说,开始吧!关于可迭代对象的理解说迭代器之前,必须要说可迭代对象。什么是可迭代对象?顾名思义,就是一个对象能够被迭代的使用。我们可以利用Python提供的模块collections来判断对象是否是可迭代对象。from collections import Iterab...

2018-11-28 15:29:16 251 1

原创 python中 type object class之间的关系

python中 type object class之间的关系新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1...

2018-11-23 23:39:28 544

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除