Yang-Zhou-CSDN博客

原创分位数和箱线图

1.什么是分位数？简单说就是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。Q1-数据中有25%个数据都比它小，第一分位数Q2-中位数Q3-数据中有75%个数据都比它小，第三分位数箱线图：箱线图可以从侧面看出异常值和数据的分布情况，在上图数据比较集中在比较大的数。用python 计算分位数：怎么计算分位数：https://...

2019-05-30 21:10:20 4156

原创 NLP实践八-----RNN

文章目录RNN的结构RNN的结构RNN的出现主要是为了解决序列信息的，比如nlp句子单词的顺序对句子的影响很大，普通的神经网络无法处理类似的问题。下图表示循环神经网络的基本结构：描述当前状态的循环递归公式如下：这里h_t是t时刻的状态, h_{t-1}是前一时刻的状态，x_t是当前的输入。我们有的是前一时刻的状态而不是前一时刻的输入, 因为输入神经元将前一时刻的输入转换为前一时刻的状...

2019-05-28 18:40:01 413

原创 NLP实践七-----卷积神经网络

文章目录卷积原理卷积一维卷积二维卷积卷积核的步长padding池化textcnn原理介绍：https://www.cnblogs.com/bymo/p/9675654.html代码实践卷积原理卷积神经网络是受生物学上感受野的机制而提出。感受野（Receptive Field）主要是指听觉、视觉等神经系统中一些神经元的特性，即神经元只接受其所支配的刺激区域内的信号。在视觉神经系统中，视觉皮层...

2019-05-27 16:45:46 681

原创 NLP实践五-----nn基础（fasttext实践）

文章目录简要原理简要原理fastText的两个任务是分类和训练词向量，传统的word2vec把语料库的每个单词当作原子的，为每个单词生成一个词向量，而fastText是对每个字符进行处理的，也就是字符级别的n_gram：参考：https://www.zhihu.com/search?type=content&q=fasttext上图表示fastText的模型架构.fastText...

2019-05-24 20:20:27 427

原创 python 安装.whl文件怎么选格式

whl文件地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/怎么看自己支持的格式：在终端输入python：文件后缀cp表示版本python，win64就是64位的，fasttext‑0.8.22‑cp37‑cp37m‑win_amd64.whl 就是需要3.7版本的 64位的系统，然后下就可以了。 pip install fasttext‑0.8....

2019-05-24 18:34:28 2162 1

原创 NLP实践五-----nn基础

文章目录激活函数深度学习中的正则化深度模型中的优化1.权重初始化2.自适应学习率算法激活函数概念：激活函数是对某一个隐藏层的结点进行非线性激活操作，分为以下步骤：（1）输入该节点的值为 x1,x2 时，在进入这个隐藏节点后，会先进行一个线性变换，计算出值 z[1]=w1x1+w2x2+b[1]=W[1]x+b[1] ，上标 1 表示第 1 层隐藏层。（2）再进行一个非线性变换，也就是经过非...

2019-05-22 18:52:12 664

原创 NLP实践五-----朴素贝叶斯，SVM,LDA主题模型

朴素贝叶斯1. 原理朴素贝叶斯的原理是基于贝叶斯定理的，我们要求的就是后验概率P(Cj|x),这里x就是特征向量，Cj就是类别j,后验概率最大的P（Cj|x）对于的类j就是样本特征为x对于的类别，其中我认为它的假设是最影响它的分类效果的原因，这就是我们看到朴素贝叶斯在不同样本分类的效果会有很大区别，见下图：2.常见模型其实这两种常见模型的具体区别就在于P（c）和先验概率的计算不同，解...

2019-05-21 12:24:18 575

原创 NLP实践四-----词袋模型 + 词向量 + word2vec

Task4 文本表示：从one-hot到word2vec (2 days)词袋模型：离散、高维、稀疏。分布式表示：连续、低维、稠密。word2vec词向量原理并实践，用来表示文本。参考：word2vec 中的数学原理详解（一）目录和前言 - peghoty - CSDN博客 https://blog.csdn.net/itplus/article/details/37969519wo...

2019-05-18 18:14:19 2484

原创 NLP实践三-----特征选择

通过对句子的预处理，拿中文来说，去标点，去停用词，分词后，我们可以表示出文本的特征了，当然这里还需要截取句子的长度，因为文本有长有短，机器学习需要输入相同长度的向量特征，然后基础的就是将文本向量化，比如每个单词出现的频数，这个的不足是可能有一些词出现的次数很高，但是它对文本的作用可能并没有那么大，那么这个时候可以考虑TF-IDF来降低这种影响。TF-IDFTF-IDF是Term Freq...

2019-05-15 22:15:59 571

原创 python 时间操作--数据分析

记录python 对时间的操作整理，数据分析使用#pd.to_datatime()可以将str类型的直接转换成datatime 类型的数据，便于数据分析，format根据str的格式自己调整就好了action['action_time']=pd.to_datetime(action['action_time'],format='%Y-%m-%d %H:%M:%S')#datetime是...

2019-05-15 16:25:18 240

原创 NLP实践二----语言处理技术

基本文本处理技能：中英文字符串处理（删除不相关的字符、去停用词）；分词（结巴分词）；词、字符频率统计。语言模型；unigram、bigram、trigram频率统计。结巴分词介绍和使用1.中英文字符串处理#直接使用apply函数食用更佳def word_clear(s): words='' for uchar in s: # 判断是否为汉字 ...

2019-05-14 22:45:12 304

原创 NLP实践一----数据探索

cnews 数据import sysfrom collections import Counterimport numpy as npimport tensorflow.contrib.keras as kr#读取文本def read_file(filename): contents,labels=[],[] with open(filename,mode=...

2019-05-11 22:06:26 293

原创 xgb lgb 自定义评价函数差别

关于xgb lgb自定义评价函数，其实是区别的，但步骤都是一样的XGB:#自定义评价函数---适用于XGBClassifier#preds是预测结果概率-但是需要转换成label#dtrain是xgb的矩阵，使用get_label() 可获取到真实的labeldef get_f1 (preds,dtrain): label=dtrain.get_label() pred...

2019-04-23 20:42:35 5488 4

原创 numpy 操作记录

记录平时使用的numpy的一些操作参考文章：numpy生成ndarraynp.arange(start,end,step) ------前闭后开，与range类似，但是支持小数。np.random随机选择元素：np.random.choice(t,size,replace=Ture) ----t是ndarray 类型的数据，size大小，replace有无放回，跟random的...

2019-04-11 09:38:51 155

原创 python中的随机数

python 中的随机数python中有很多功能可以返回随机数，这里自己整理一下使用自带的randomimport randomprint(random.random()) #[0,1)的随机数，浮点数print(random.randint(1,100)) #[1,100]的一个随机数print(random.randrange(1,100)) #[1,100)的一个随...

2019-04-09 14:59:56 377

转载 pd.merge

参考博文：https://blog.csdn.net/brucewong0516/article/details/82707492

2019-01-18 18:49:24 674

原创 ndarray运算记录

关于ndarray对象的很多计算方法都有一个axis参数，它有如下作用：当axis=None（默认）时，数组被当成一个一维数组，对数组的计算操作是对整个数组进行的，比如sum方法，就是求数组中所有元素的和；当axis被指定为一个int整数时，对数组的计算操作是以提供的axis轴进行的。比如data.sum()就是所有元素的和，sum（axis=0）就是列加，axis=1就是行加计算...

2019-01-15 17:07:12 263

原创 knn算法知识

knn算法是属于监督学习的一种算法，简单来说就是根据预测样本和训练样本的距离来进行分类或者回归。1.k值的选择：若k较小，模型的复杂度较高，容易发生过拟合若k较大，与输入实例较远的训练样本也会起预测作用，是预测误差变大。通常采用交叉验证法来选取最优的k值。2.距离的度量主要有欧式距离，皮尔逊相关系数(Pearson Correlation)，余弦相似度(Cosine Similarit...

2019-01-11 22:08:28 2890

原创先验概率与后验概率、贝叶斯区别与联系

先验概率与后验概率、贝叶斯区别与联系先验概率：根据以往经验分析得到的概率，通俗就是根据统计和规律得出得概率。后验概率：就是根据结果推原因，比如知道一个产品是次品求它来自A车间的概率，通过贝叶斯公式可以得到。贝叶斯公式：例子:...

2019-01-08 11:20:23 7494

原创 python爬虫基础知识（二）--正则表达式

regular expression ：描述字符串排列的一套规则，通过这套规则，我们可以过滤掉不需要的信息，从而提取出我们需要的信息，在爬虫中，我们如果想要从网页中获取我们想要的信息就需要构造相应的正则表达式结合python的方法进行获取。1.原子原子是正则表达式中最基本的单位，每个正则表达式至少包含一个原子，原子类型： 1）普通字符import repattern="hello"string

2017-12-11 22:34:31 224

原创 python爬虫基础知识（一）--Urllib.request

explain：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.1.urllib.re

2017-12-11 12:30:44 778

原创 python可变参数详解

python的函数传递参数与java，c++有所区别，这也增强了python语言的灵活性。1.位置参数位置参数顾名思义，就是函数的参数按照定义位置传入，这与java，c++相同，传入的参数对应位置。比如：def text(a,b,c): print(a,b,c)text(1,"k","hello")输出结果1 k hello2.默认参数我们在java中，如果函数的参数传递少了，那么编译器

2017-11-21 17:06:51 699

原创 python迭代，可迭代对象，生成器，迭代器--

python迭代给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历我们称为迭代（Iteration）可迭代对象：List：for a in Listdict：（因为dict的存储不是按照list的方式顺序排列，所以，迭代出的结果顺序很可能不一样。）1.默认迭代dict的key值：d = {'a': 1, 'b': 2, 'c': 3}for key

2017-11-09 17:09:42 294

原创 python文件操作

python文件操作相关知识总结读文件操作（open）语法：open（filename，mode） filename表示文件名，mode表示打开的模式(见图片)f=open("text.txt","r")使用open打开文件后就可以开始读文件了，如果只用r开头的mode读文件，文件不存在，则会抛出IOError的错误，读取成功后用函数读取文文件f.read()#一次读取所有内容f.read(

2017-11-07 21:27:23 223

原创 xpath语法总结

最近再看爬虫，用到了xpath提取内容，接下来记录一下xpath语法:1 ‘/’ 从根节点选取。假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！2 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。也就是说以／／开头的不会考虑这个元素在那个位置，在任何位置都可以匹配到3 . 选取当前节点。4 .. 选取当前节点的父节点。5 @ 选取属

2017-09-29 16:47:36 304

原创 Android的消息机制

在更新UI的操作中，我们经常使用Handler发送数据来更新UI，那么这个过程是怎么样的，现在来分析一下：总体过程：首先主线程里建立消息循环，消息循环在looper（）对象中，有消息队列，然后，我们是通过handler与looper（）对象建立起关联起来，从而与消息队列建立起关联，通过在子线程调用sendmessage（）和post（）的方法将message发送到消息队列，在消息队列中，mes

2017-09-13 17:30:37 328

原创正则表达式常用

参考文章：正则表达式表=== 正则表达式匹配域名、网址、url：匹配完整域名的正则表达式： ^(?=^.{3,255})[a−zA−Z0−9][−a−zA−Z0−9]0,62(\.[a−zA−Z0−9][−a−zA−Z0−9]0,62)+)[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+例如：baidu.com

2017-09-09 17:07:47 448

原创 CoordinatorLayout +AppBarLayout（续）

CollapsingToolbarLayout 提供以下属性和方法使用： Collapsing title：ToolBar的标题，当CollapsingToolbarLayout全屏没有折叠时，title显示的是大字体，在折叠的过程中，title不断变小到一定大小的效果。可以调用setTitle(CharSequence)方法设置title。Content scrim：ToolBar被折叠到顶部

2017-08-31 12:30:47 224

原创 CoordinatorLayout+AppBarLayout实现联动

CoordinatorLayout简介 CoordinatorLayout is a super-powered FrameLayout. CoordinatorLayout is intended for two primary use cases: 1.As a top-level application decor or chrome layout 2.As a cont

2017-08-31 12:21:18 761

原创 Fragment强烈要求构造方法为空

在使用Fragment的时候，常常需要传递参数，一般想法是直接在构造方法中传递参数，但是查阅官方文档发现：Fragment () Default constructor. Every fragment must have an empty constructor, so it can be instantiated when restoring its activity’s state. It i

2017-08-30 22:30:31 404

原创 android 动画 -- tween动画（续）

本篇接上篇：android 动画 – tween动画上篇讲到创建xxAnimation对象，然后：设置Animation对象相应的数据设置动画执行事件（单位：毫秒）： setDuration(long durationMills); 如果fillAfter的值为true,则动画执行后，控件将停留在执行结果的状态： setFillAfter(boolean fillAfter); 如果

2017-08-20 16:20:23 267

原创 android 动画 -- tween动画

先看一下android动画框架： tween动画详解：tween动画可以实现让某个控件展现出旋转，渐变，移动，缩放的一种转换过程，当然，这些单独的动画也可以组合一起来使用，可以打造一些适用的效果。主要类 Animation AlphaAnimation--渐变透明度 RotateAnimation --旋转ScaleAnimation --缩放TranslateAnimation

2017-08-20 15:55:37 440

原创 android自定义View

自定义View自定义View的实现类型继承自View完全自定义继承现有控件实现特定的效果继承自ViewGroup实现布局类实现步骤：自定义view的属性首先在res／values下创建attrs.xml ，通过<attr name="xxx" ,format="类型"来创建你需要的属性，如：<?xml version="1.0" encoding="utf-8"?> <resourc

2017-08-15 00:00:08 266

原创 appbarlayout+springview+viewpager滑动冲突的问题

简介：在做一个关于CoordinatorLayout+appbarlayout实现滑动隐藏Toolbar的demo的时候，里面加了viewpager+fragment，刷新控件用的springview，滑动用的recyclerview发现左右滑动的时候，toolbar已经隐藏了起来，但是下拉直接触动了springview，但是上拉一下再下拉又没有了这种冲突，为了解决这种冲突。

2017-05-22 23:18:24 2038

原创使用ActivityOptions动画共享组件的方式实现跳转Activity动画

Avtivity交互时，往往默认的交互方法并不能满足需求，这里的共享组件动画效果是指将前面一个Activity的某个子View与后面一个Activity的某个子View之间有过渡效果。在阅读新闻的时候，点击效果比较适合。首先：对你要点击的控件设置：Android:transitionName="shareNames"然后在你新开的activity里面的组件同样设置：Android:transi

2017-05-18 22:37:30 827

原创 android activtiy 启动白屏原因还有解决方法

在启动android 程序的时候，经常会遇到启动的时候屏幕会显示白色的内容，原因是：Android中Activity启动的时候实际上创建了两个Window对象，第一个叫做PreviewWindow，是为了避免真正的窗口没有及时加载出来，但是又不想让用户等待才引入了这个window，这个window什么也不做，只是显示一个背景图，当你的activity加载很慢的时候就会显示这个window对象，所以你

2017-05-17 13:46:35 690

原创 drawerlayout+（viewpager+tablayout）

drawlayout+（viewpager+tablelayout）drawlayout使用方法：简介： DrawerLayout是Support Library包中实现了侧滑菜单效果的控件，可以说drawerLayout是因为第三方控件如MenuDrawer等的出现之后，google借鉴而出现的产物。drawerLayout分为侧边菜单和主内容区两部分，侧边菜单可以根据手势展开与隐藏（drawe

2017-04-26 22:43:51 491

原创 android基础知识

IntentIntent是android程序各组件之间进行交互的一种重要方式，一般用于启动活动，启动服务，以及发送广播等场景，intent一共分为两种，显式intent和隐式

2017-03-02 21:56:09 233

空空如也

空空如也