自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

疯子书生的博客

一个数据分析挖掘师的笔记

  • 博客(85)
  • 问答 (1)
  • 收藏
  • 关注

原创 异常检测概述及实例

1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。通俗的来说,就是发现与大部分对象不同的对象,也就是离群点,一般规定数据具有“正常”模型,而异常被认为是与这个正常模型的偏差。在实际应用中对异常的定义也是特定的。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文

2021-01-10 10:53:10 3098

原创 nlp-知识图谱简介

知识图谱介绍目录知识图谱介绍一、知识图谱简介1.1 引言1.2 什么是知识图谱呢?1.2.1 什么是图(Graph)呢?1.2.2 什么是 Schema 呢?1.3 知识图谱的价值在哪呢?二、怎么构建知识图谱呢?2.1 知识图谱的数据来源于哪里?2.2 信息抽取的难点在哪里?2.3 构建知识图谱所涉及的技术?2.4、知识图谱的具体构建技术是什么?2.4.1 实体命名识别(Named Entity Recognition)2.4.2 关系抽取(Relation Extraction)2.4.3 实体统一(E

2021-01-10 09:21:37 13503 3

原创 数据分析---arXiv论文数据统计

这里写目录标题1.论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化1.论文数据统计1.1 任务说明主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;内容:使用 Pandas 读取数据并进行统计;1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论

2021-01-10 09:19:32 3114

原创 c primer plus 第三章 数据和C (知识点总结)

目录1. 大纲2. getchar()3. 程序中新元素3.1 两种变量声明3.2 scanf()函数和printf()函数4. 变量与常量数据5. 数据:数据类型关键字5.1 位、字节和字5.2 整数和浮点数6. C语言的基本数据类型6.1 int 类型6.2 其他整数类型6.3 使用字符:char类型1. 大纲2. getchar()getchar()函数读取下一个输入字符,因此程序会等待用户输入。用于在程序输出屏幕一闪而过的情况下。使用几个getchar()根据实际程序来进行调整。

2021-01-03 16:25:50 462

原创 c primer plus 第二章编程练习——习题解答

2.1编写一个程序,调用一次printf()函数,把你的名字和姓打印在一行。再调用一次printf()函数,把你的名和姓打印在两行。然后,再调用两次printf()函数,把你的名和姓打印在一行。输出应该如下所示:Gustav MachlerGustavMachlerGustav Machler#include<stdio.h>int main(void){ printf("Gustav Machler\n"); printf("Gustav\nMachler\

2021-01-01 16:24:25 563

原创 matplotlib 绘图技巧(一)

目录1、认识matplotlib2.最简单的绘图例子1、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib,它已经成为python中公认的数据可视化工具,我们所熟知的pandas和seabo

2020-12-14 16:02:59 1310

原创 pip 一次性更新所有包

import pkg_resourcesfrom subprocess import callpackages = [dist.project_name for dist in pkg_resources.working_set]call("pip3 install " + "-i https://pypi.tuna.tsinghua.edu.cn/simple" + " --upgrade " + ' '.join(packages), shell=True)

2020-12-09 09:32:24 1025

原创 Numpy基础教程(四)---数学函数与逻辑函数

目录1. 数学函数1.1 向量化和广播1.2 数学函数1.2.1 算数运算1.3三角函数1.4 指数和对数1.5加法函数、乘法函数1.5.1 numpy.sum1.5.2 numpy.cumsum1.5.3 numpy.prod 乘积1.5.4 numpy.cumprod 累乘1.5.5 numpy.diff 差值1.6 四舍五入1.6.1numpy.around 舍入1.6.2 numpy.ceil 上限与numpy.floor 下限1.7杂项1.7.1numpy.clip 裁剪1.7.2numpy.ab

2020-12-04 16:34:29 556

原创 Numpy基础教程(三)---数组操作

目录数组操作1.更改形状2. 数组转置3. 更改维度4.数组组合5.数组拆分6.数组平铺7.添加和删除元素数组操作1.更改形状在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。通过修改 shape 属性来改变数组的形状。import numpy as npx = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.sh

2020-12-04 15:58:52 301

原创 Numpy基础教程(二)----索引、切片及迭代

目录1.副本与视图2.索引与切片2.1整数索引2.2 切片索引2.3 dots 索引2.4 整数数组索引2.5 布尔索引3. 数组迭代1.副本与视图在介绍索引和切片之前,先介绍以下副本与视图。在 Numpy 中,尤其是在做数组运算或数组操作时,返回结果不是数组的 副本 就是 视图。在 Numpy 中,所有赋值运算不会为数组和数组中的任何元素创建副本。numpy.ndarray.copy() 函数创建一个副本。 对副本数据进行修改,不会影响到原始数据,它们物理内存不在同一位置。import nu

2020-11-28 15:34:37 229

原创 Numpy基础教程(一)-----数组属性及创建

目录1.Numpy简介1.1Scipy简介1.2Matplotlib 简介1.3 相关链接1.4 numpy 安装2. NumPy Ndarray 对象2.1 参数说明2.2 常量2.2.1 numpy.nan2.2.2 numpy.inf3. 数据类型3.1 常见数据类型3.2 数据类型对象 (dtype)4.时间日期和时间增量4.1 datetime64 基础4.2datetime64 和 timedelta64 运算4.3 datetime64 的应用5. 数组属性及创建数组5.1 NumPy 数组属

2020-11-26 19:25:24 910

原创 数据结构第二章-线性表(详细知识点总结)

第二章 线性表【考纲内容】(一)线性表的定义和基本操作(二)线性表的实现顺序存储;链式存储;线性表的应用【框架】2.1 线性表的定义和操作2.1.1 线性表的定义线性表是具有相同数据类型的n(n>=0)个数据元素的有限序列,其中n为表长,当n=0时,线性表是一个空表。若用L命名线性表,则其一般表示为               &nbs

2020-11-25 17:23:05 20070 2

原创 数据结构-第一章 绪论(详细知识点总结)

第一章 绪论【考纲内容】(1)数据结构相关概念和术语(2)数据结构三要素:逻辑结构,物理结构和数据运算(3)算法时间复杂度和空间复杂度的分析【框架】1.1 数据结构的基本概念1.1.1 基本概念和术语数据数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。数据元素数据元素是数据的基本单位,通常作为一个整体进行考虑和处理。一个数据元素可由若干数据项组成,数据项是构成数据元素的不可分割的最小单位。

2020-11-11 17:06:35 4970 2

原创 计算机网络-第一章 计算机网络体系结构(详细知识点总结)

第一章 计算机网络体系结构【大纲】(一)、计算机网络概述计算机网络的概念、组成与功能、计算机网络的分类计算机网络的标准化工作及相关组织(二)、计算机网络体系结构与参考模型计算机网络分层结构;计算机网络协议、结构、服务等概念ISO/OSI参考模型和TCP/IP模型1.1 计算机网络概述1.1.1 计算机网络的概念一般认为,计算机网络是将一个分散的、具有独立功能的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。简而言之,计算机网络就是一些互联的、自治对的

2020-11-08 17:33:33 7231

原创 计算机组成原理-第一章 计算机系统概述(详细知识点总结)

第一章 计算机系统概述大纲大纲:(一)、计算机发展历程(二)、计算机系统层次结构计算机硬件的基本组成、计算机软件的分类、计算机的工作过程(三)、计算机性能指标吞吐量、响应时间、CPU时钟周期、主频、CPI、CPU执行时间、MIPS、MFLOPS、GFLOPS、TFLOPS1.1计算机发展历程1.1.1 计算机四代变化第一代计算机(1946-1957)电子管时代第二代计算机(1957-1964)晶体管时代第三代计算机(1965-1971)中小规模集成电路时代第四代计算机(1971-

2020-10-29 20:55:32 5533

转载 NLP应用场景

原创博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言20...

2020-05-22 15:48:27 3314

转载 计算机视觉 ----全面介绍

目录简介方向热点简介计算机视觉(Computer Vision)又称为机器视觉(Machine Vision),顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下,计算机视觉与自然语言处理(Natural Language Process, NLP)及语音识别(Speech Recognition)并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图(Histogram of ...

2020-05-20 23:05:31 7141 1

原创 计算机视觉(一)-----街景字符识别简介及代码实例

目录1.简介1.1 思路1.2 运行环境及安装示例2.代码实例2.1. 导入常用的包:2.2. 定义好读取图像的Dataset2.3. 定义好训练数据和验证数据的Dataset2.4. 定义好字符分类模型,使用renset18的模型作为特征提取模块2.5. 定义好训练、验证和预测模块2.6. 迭代训练和验证模型2.7. 对测试集样本进行预测,生成提交文件2.8. 加载保存的最优模型1.简介数据集来源为Google街景图像中的门牌号数据集(The Street View House Numbers Dat

2020-05-20 22:53:41 2840 1

原创 pandas ----数据分类(category)

目录1.category的创建及其性质1.1. 分类变量的创建1.2. 分类变量的结构1.3. 类别的修改2.分类变量的排序2.1. 序的建立3.分类变量的比较操作3.1. 与标量或等长序列的比较3.2. 与另一分类变量的比较1.category的创建及其性质这是对pandas分类数据类型的介绍,包括与R的简短比较factor。category是与统计中分类变量相对应的 pandas数据类型...

2020-05-08 11:20:10 3549

原创 pandas ------ 文本类型数据处理

目录1. string类型的性质1.1. string与object的区别2. string类型的转换2.拆分与拼接2.1. str.split方法2.2. str.cat方法3.替换3.1. str.replace的常见用法3.2. 子组与函数替换4.子串匹配与提取4.1. str.extract方法4.2. str.extractall方法4.3. str.contains和str.match...

2020-05-06 17:28:02 1099

原创 pandas -----缺失数据处理

目录一、缺失观测及其类型1.1. 了解缺失信息1.2. 三种缺失符号1.3. Nullable类型与NA符号1.4. NA的特性1.5. convert_dtypes方法二、缺失数据的运算与分组2.1. 加号与乘号规则2.2. groupby方法中的缺失值三、填充与剔除3.1. fillna方法3.2. dropna方法四、插值(interpolation)4.1. 线性插值4.2. 高级插值方法...

2020-05-04 15:04:35 1304

原创 pandas -----合并全集(append、aassign、combine、upadte、concate、merge、join)

目录1.导入数据2.append与assign2.1 append方法2.2. assign方法3.combine与update3.1. comine方法1.导入数据import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()SchoolClassIDGenderAd...

2020-04-30 17:36:18 659

原创 jupyter lab出现的问题 ------快捷键无法运行,菜单无法点击

最近一直在使用jupyter lab写一些代码和练习,突然有一天,快捷键就不好使了,也运行不了代码。我网上查了一下,基本都是jupyter lab安装和卸载的。所以没办法我就卸载了一下正常的卸载是 pip uninstall 模块(包)所以我就卸载一下重装。发现pip install jupyterlab运行之后,显示已经安装。我就知道,没那么容易卸载干净。于是又搜了一下安装了pip-a...

2020-04-29 11:20:42 5671 1

原创 机器学习 ---- 条件随机场

目录1.什么是条件随机场2.马尔科夫过程3.隐马尔科夫算法4.条件随机场(以线性链条件随机场为例)4.1定义4.2基本问题4.3概率计算问题4.4 前向-后向算法5. BFGS 算法6.预测问题1.什么是条件随机场条件随机场是一种无向图模型,且相对于深度网络有非常多的优势,因此现在很多研究者结合条件随机场(CRF)与深度网络获得更鲁棒和可解释的模型。在介绍条件随机场之前,首先简单说明马尔科夫...

2020-04-28 10:43:50 690

原创 爬虫---------selenium抓取腾讯新闻

目录1.导入相关模块2.打开chromedriver3.设置滚动条4.滚动条下滑到定位的元素5.解析页面6.遍历标签输出结果7.输出结果抓取腾讯新闻思路:selenium模拟浏览器操作BeautlfulSoup解析存储数据1.导入相关模块from selenium import webdriverfrom bs4 import BeautifulSoupimport panda...

2020-04-27 11:04:28 855

原创 pandas -----变形(透视表、melt、stack、unstack),哑变量与因子变化

目录导入数据1. 透视表1. 1 pivot1.2. pivot_table1.3 crosstab(交叉表)2.其他变形方法2.1. melt2.2. 压缩与展开3.哑变量与因子化3.1. Dummy Variable(哑变量)3.2. factorize方法5.练习导入数据import numpy as npimport pandas as pddf = pd.read_csv('da...

2020-04-26 17:26:43 1596 1

原创 爬虫 ----------session和cookie

目录1.前置:动态网页和静态网页1.1 静态网页1.2 动态网页1.3 http1.02. session和cookies2.1 session2.2 cookies3.实战案例:模拟登录1631.前置:动态网页和静态网页1.1 静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到...

2020-04-25 15:04:55 487

原创 爬虫 -------Seleium

这里写目录标题1. selenium1.1 导入模块1. seleniumselenium是什么:一个自动化测试工具(大家都是这么说的)selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以...

2020-04-25 15:01:03 299

原创 数据挖掘 ---- Pandas之分组

目录导入模块及数据1. SAC过程1.1 内涵1.2. apply过程2. groupby函数2.1. 分组函数的基本内容:2.2. groupby对象的特点3.聚合、过滤和变换3.1. 聚合(Aggregation)3.2.2. 过滤(Filteration)3. 变换(Transformation)4.apply函数4.1. apply函数的灵活性4.2. 用apply同时统计多个指标5.练...

2020-04-24 16:40:55 659

原创 爬虫 --------构建ip代理池

目录1.如何应对IP被封的问题2.获取代理IP地址2.1 使用代理2.2确认代理IP地址有效性2.3改进:确认网站title3 关于http和https代理我们在进行爬虫的时候,总会遇到ip被封的情况,是因为网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问。1.如何应对IP被封的问题有几种方法:修改请求头,模拟浏览器(而不是代...

2020-04-24 10:45:22 44501

原创 机器学习-------- EM算法推导及高斯混合分布

1. 前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。2....

2020-04-23 14:24:39 632

原创 机器学习 ---- 朴素贝叶斯

目录1 相关概念1.1 生成模型1.2 判别模型2 先验概率、条件概率2.1条件概率2.2先验概率2.3 后验概率3 贝叶斯决策理论4 贝叶斯公式4.1 极大似然估计4.2 朴素贝叶斯分类器5 极值问题情况下的每个类的分类概率6 下溢问题如何解决7 零概率问题如何解决?8 sklearn参数详解9 优缺点10 参考文献1 相关概念导入相关模块以及数据集from sklearn.n...

2020-04-23 09:58:09 526

原创 数据挖掘---- pandas之索引

目录1.单级索引1. 1 loc方法、iloc方法、[ ]操作符1.1.1 loc方法(注意:所有在loc中使用的切片全部包含右端点!)1.1.2 iloc方法(注意与loc不同,切片右端点不包含)1.2 布尔索引1.2.1 布尔符号:'&','|','~':分别代表和and,或or,取反not1.2.2 isin方法1.2.3 快速标量索引1.2.4 区间索引1.2.4.1利用inte...

2020-04-21 17:56:36 733

原创 爬虫 -----beautifulsoup、Xpath、re (三)附淘宝比价定向爬虫

目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数:1.6 re库的另一种等价用法(编译)1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫1.正则表达式 re典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态...

2020-04-20 17:24:49 875

原创 爬虫 -----beautifulsoup、Xpath、re (二)附爬取丁香园用户名以及回复内容

目录1.Xpath简介1.1使用流程:1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战:爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content(完成xpath的语句)2.4 保存爬取的内容1.Xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XM...

2020-04-20 16:36:31 621

原创 爬虫 -----beautifulsoup、Xpath、re (一)附全国大学排名抓取

目录1.BeautifulSoup简介1.1 BeautifulSoup使用流程1.2 BeautifulSoup 库的基本元素1.3 基于bs4库的HTML内容遍历方法1.4基于bs4库的HTML内容的查找方法2. 实战:中国大学排名定向爬取2.1 从网络上获取大学排名网页内容2.2 提取网页内容中信息到合适的数据结构(二维数组)2.3 利用数据结构展示并输出结果1.BeautifulSou...

2020-04-20 16:17:33 857 1

原创 python-------assign的使用方法

assign的用途是增加新的一列df1['B']=list('abc')df1AB11a22b33cdf1.assign(C=pd.Series(list('def')))ABC11ae22bf33cNaN没有指定Series的index默认是从0开始的。使用assign添...

2020-04-20 10:38:27 14570 1

原创 数据挖掘 -------pandas基础(文件读写、数据结构、常用基本函数)

目录1.简介2. 文件读写2.1读取2.2 写入2.3 pandas数据结构2.3.1 Series2.3.2DataFrame3.常用基本函数3.1. head和tail3.2 unique和nunique3.3 count和value_counts3.4 describe和info3.5 idxmax和nlargest3.6 clip和replace3.7 apply函数4.排序4.1索引排序...

2020-04-19 17:34:13 1057

原创 机器学习 -----线性回归

目录1.线性回归的概念1.1线性回归的原理1.1.1线性回归的一般形式:1.1.2极大似然估计(概率角度的诠释)2、线性回归损失函数、代价函数、目标函数3、线性回归的优化方法3.1、梯度下降法2 、最小二乘法矩阵求解3、牛顿法4、拟牛顿法4、线性回归的评价指标5、sklearn.linear_model参数详解:1.线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3...

2020-04-19 15:40:17 1454

原创 爬虫基础---简单使用(附带豆瓣电影top250)

文章目录1.简介1.1互联网1.2 HTTP2.网页基础2.2网页组成2.3网页结构2.4HTML DOM2.5CSS2.6使用开发者工具检查网页requests.get3.requests.post3.2request.get进阶:爬取豆瓣电影3.2.1<divclass="item"> :一部电影信息对应对应的源代码。4.使用api4.1API使用示例5.JavaScript与AJ...

2020-04-19 10:51:56 2818

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除