ban2413-CSDN博客

转载 Python爬虫相关技巧

get请求1 kv = {2 'Cookie': 'ccpassport=ec081bd592c086d4057c3442b43b7998; wzwsconfirm=52277a99b139398795c925c264b5cf54; wzwstemplate=OQ==; wzwschallenge=-1;3 'User-Agent': 'Mozilla/5...

2018-12-27 17:14:00 274

转载 SQL优化总结

本文主要介绍SQL查询的性能优化及其替代方案。1.避免in，disdinct，用exists代替。用NOT EXISTS替代NOT IN例如：select num from a where num in(select num from b) 代替成：select num from a where exists(select 1 from b where num=a.num)...

2018-03-20 15:58:00 263

转载利用主成分PCA进行特征提取

本文将介绍主成分分析（Principal Component Analysis，PCA）原理，并且它如何在分类问题中发挥降维的作用。译自Feature extraction using PCA。简介本文将介绍主成分分析（Principal Component Analysis，PCA）原理，并且它如何在分类问题中发挥降维的作用。在前面我们讲到过维度灾难，分类器容易对高维的...

2018-01-31 20:21:00 3066

转载维度灾难&&bias和variance

维度灾难维度增多主要会带来高维空间数据稀疏化问题，也就是说，数据会更加的分散，因而就需要更大的数据量才能获得较好的bias和variance，达到较好的预测效果。此处，最典型的是对于KNN的预测。更详细的见：怎样理解"curse of dimensionality"，另一方面看，当维度增加时，也可能导致过拟合现象：训练集上表现好，但是对新数据缺乏泛化能力。高维空间训练...

2018-01-30 15:39:00 291

转载 R语言caret包的学习（四）--建立模型及验证

本文介绍caret包中的建立模型及验证的过程。主要涉及的函数有train()，predict()，confusionMatrix()，以及pROC包中的画roc图的相关函数。建立模型在进行建模时，需对模型的参数进行优化，在caret包中其主要函数命令是train。train(x, y, method = "rf", preProcess = NULL, ..., ...

2018-01-17 15:25:00 1548

转载 R语言caret包的学习（三）--数据分割

本文将就caret包中的数据分割部分进行介绍学习。主要包括以下函数：createDataPartition()，maxDissim()，createTimeSlices()，createFolds()，createResample()，groupKFold()等基于输出结果的简单分割createDataPartition函数用于创建平衡数据的分割。如果函数中的参数y是一个因子向量...

2018-01-16 13:16:00 3537

转载 R语言caret包的学习（二）--特征选择

在进行数据挖掘时，我们并不需要将所有的自变量用来建模，而是从中选择若干最重要的变量，这称为特征选择（feature selection）。本文主要介绍基于caret包的rfe()函数的特征选择。一种算法就是后向选择，即先将所有的变量都包括在模型中，然后计算其效能（如误差、预测精度）和变量重要排序，然后保留最重要的若干变量，再次计算效能，这样反复迭代，找出合适的自变量数目。这种算法的一...

2018-01-16 13:14:00 2233

转载 R语言caret包的学习（一）--数据预处理

caret包（Classification and Regression Training）是一系列函数的集合，它试图对创建预测模型的过程进行流程化。本系列将就数据预处理、特征选择、抽样、模型调参等进行介绍学习。本文将就caret包中的数据预处理部分进行介绍学习。主要包括以下函数：model.matrix()，dummyVars()，nearZeroVar()，findCorrela...

2018-01-15 18:45:00 2636

转载 R语言tm包文本挖掘的学习

分词之后，便是创建文档-词条矩阵了。本文便是针对于此。正式学习tm（text mining）包数据读入在tm 中主要的管理文件的结构被称为语料库（Corpus），代表了一系列的文档集合。语料库是一个概要性的概念，在这里分为动态语料库（Volatile Corpus，作为R 对象保存在内存中）和静态语料库（Permanent Corpus，R 外部保存）。所对应的函数分别是V...

2018-01-09 21:09:00 940

转载 R语言jiebaR包的分词学习

实训中的自然语言处理部分，首先就是要分词了，学习一下！上手jiebaR使用jiebaR的第一步当然是安装jiabaR包并加载咯安装：install.packages("jiebaR") 加载：library(jiebaR)三种分词语句的写法：wk = worker()#方法1wk["我希望未来会很好"]#方法2wk<="我...

2018-01-08 19:58:00 851

转载将JSON数据转存为RDF格式文件+RDF知识库查询

本文将实现JSON数据到RDF格式文件的转化，并基于RDF知识库进行查询，从而实现一个简易的知识图谱。本文采取的数据是openkg上的微观经济学知识库，microeco.json。首先实现JSON到RDF的转化import jsonimport rdflibwith open("microeco.json","rb") as jsonfile: da...

2018-01-08 14:53:00 1804

转载 LSTM(long short term memory)长短期记忆网络

bags of word(WOE)它的基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的循环神经网络(recurrent neural networks)会考虑到词序，基于对先前所见词的理解来推断当前词的真实含义当相关的信息和预测的词位置之间的间隔是非常小时，RNN 可以学会使用先前的信息。但是，在这...

2018-01-03 11:26:00 503

转载 Echarts入门

引用Echarts方法1：下载echarts.js后，进行引用，如 <script src="echarts.min.js"></script>方法2：在线引用，在线网址可为http://echarts.baidu.com/dist/echarts.min.jsR语言中有相应的R包，统计之都版的recharts包的教程可见：https...

2017-12-23 22:55:00 109

转载关于JSON

JSON语法JSON 的语法主要有以下5点：数组（Array）用方括号(“[]”)表示。对象（Object）用大括号（”{}”）表示。名称/值对（name/value）之间用冒号（”：”）隔开。名称（name）置于双引号中，值（value）有字符串、数值、布尔值、null、对象和数组。并列的数据之间用逗号（“,”）分隔验证自己的 JSON 格式是否正确...

2017-12-23 14:02:00 124

转载 D3进阶--读取csv文件

在 D3.js 中提供了 d3.csv() 函数来读取 CSV 文件。函数 API 可参见：https://github.com/mbostock/d3/wiki/CSVd3.csv("table.csv",function(error,csvdata){ if(error){ console.log(error); }...

2017-12-23 13:50:00 6240

转载 D3入门系列(4)--D3中的各种图

D3 总共提供了 12 个布局：饼状图（Pie）、力导向图（Force）、弦图（Chord）、树状图（Tree）、集群图（Cluster）、捆图（Bundle）、打包图（Pack）、直方图（Histogram）、分区图（Partition）、堆栈图（Stack）、矩阵树图（Treemap）、层级图（Hierarchy）。饼状图 1 //创建画布 2 var svg=...

2017-12-22 16:48:00 487

转载 D3入门系列(3)--简单的交互与动态

首先，介绍一下D3中三个非常重要的概念Update、Enter、Exit 。如果数组为 [3, 6, 9, 12, 15]，将此数组绑定到三个 p 元素的选择集上。可以想象，会有两个数据没有元素与之对应，这时候 D3 会建立两个空的元素与数据对应，这一部分就称为Enter。而有元素与数据对应的部分称为Update。如果数组为 [3]，则会有两个元素没有数据绑定，那么没有数据绑定的...

2017-12-22 16:46:00 337

转载 D3入门系列(2)--简单的条形图、折线图、散点图和文本换行

SVG画布HTML 5 提供两种强有力的“画布”：SVG和Canvas。SVG的特点：SVG 绘制的是矢量图，因此对图像进行放大不会失真基于 XML，可以为每个元素添加 JavaScript 事件处理器每个图形均视为对象，更改对象的属性，图形也会改变不适合游戏应用Canvas特点：绘制的是位图，图像放大后会失真不支持事件处理器能够以...

2017-12-22 16:43:00 564

转载 D3入门系列(1)--元素选择、增删与数据绑定的基本用法

本系列参考学习自http://www.ourd3js.com 非常感谢博主的分享！使用D3在网页中使用D3有两种方法：1. 下载D3.js文件后本地引用下载地址https://github.com/mbostock/d3/releases/download/v3.4.8/d3.zip2. 在线引用 <script src="htt...

2017-12-22 16:42:00 179

转载常用的几种距离的优劣

欧式距离欧式距离想必很熟悉了，就是两个特征向量长度平方和的平方根嘛优势：简单直观劣势：若某些特征比其他特征值大很多，精度就会比较差。此外，若有很多特征值为0，也就是所谓的稀疏矩阵，结果也不准确。总之，稳定性不是很好曼哈顿距离曼哈顿距离是两个特征在标准坐标系中绝对轴距之和（没有使用平方距离），又称街区距离。优势：在某些情况下具有更高的稳定性劣势：若数据集中某些特...

2017-12-10 13:54:00 1590

转载 Python爬虫Scrapy框架(3) -- 反爬虫

爬取代理Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)，详见https://www.cnblogs.com/ifso/p/4707135.html验证代理 1 import urllib.request 2 import re 3 import threading 4 5 6 class TestProxy(o...

2017-12-08 15:48:00 175

转载 Kaggle房价预测

之前在kaggle上做了关于房价预测的比赛，现整理如下。解决问题的大概步骤是：1、通过画图查看目标变量SalePrice是否偏分布，若是，则进行log(x+1)变换。并查看数值变量，若偏度大于0.75，也做log(x+1)变换2、缺失值处理。分类变量NA NA值赋值为0，数值变量中的NA赋值为其平均值3、将分类变量转化为哑变量4、回归分析。分别用Ridge回归与Las...

2017-12-05 09:07:00 143

转载信用风险评分卡研究（一）

第一章：评分卡的开发过程标准评分卡信用评分卡类型：申请评分卡。对新贷款申请，判断违约风险，并据此决定批准或拒绝。一次性行为评分卡。已审批通过，后期的检测和管理业务账户的手段。反复进行两种类型的开发过程方案基本相同，但有两个主要差别：通常，行为评分卡比申请评分卡更精确。因为行为评分卡在对账户状态进行预测时基于更多的数据要素（交易产生的）拒绝演绎...

2017-12-04 10:41:00 428

转载某市近年毕业情况的一个可视化

数据来源于：https://data.cityofnewyork.us/Education/2005-2010-Graduation-Outcomes-By-Borough/avir-tzek数据理解原数据其实是有点乱的，第一列Demographic可以说是一些标签吧，有English Language Learners和English Proficient Students，有...

2017-12-04 10:16:00 187

转载 R语言shiny包的学习

shiny是一个R语言中的网络应用程序框架，可以将你的数据分析变成交互式的网络应用(web apps)，简单又实用。基本用法一个shiny应用可以分为两部分：前端和后端，其实所有的shiny应用都是基于以下的模版：ui = fluidPage()server = function(input, output) {}shinyApp(ui = ui, server ...

2017-12-03 21:54:00 1721

转载 R语言timevis包的学习

timevis包可以实现时间线的可视化，并支持交互。更好的是，也可以在shiny和Rmarkdown中使用！此外此外，还有众多的API，可以在创建后修改。支持从外部获取数据。返回的是htmlwidgets对象。基本用法timevis(data, groups, showZoom = TRUE, zoomFactor = 0.5, fit = TRUE, option...

2017-11-30 20:31:00 367

转载可视化之lattice、recharts、ggplot资源汇总

latticehttps://www.statmethods.net/advgraphs/trellis.htmlrecharts教程、实例、API、博客http://recharts.org/#/zh-CN/ggplot绘制散点图 http://blog.csdn.net/tanzuozhev/article/details/51106909折...

2017-11-28 21:27:00 175

转载回归小知识

SSE残差平方和预测值和实际值差的平方和SST偏差平方和实际值与实际平均值的差的平方和SSR回归平方和预测值与实际平均值的差的平方和 SST=SSR+SSER方=SSR / SST =SSR / (SSR+SSE)标准差Standard Error = sqrt( SSE / (n-k) ) ...

2017-11-28 16:23:00 102

转载 R语言之逻辑回归

本文主要将逻辑回归的实现，模型的检验等参考博文http://blog.csdn.net/tiaaaaa/article/details/58116346;http://blog.csdn.net/ai_vivi/article/details/438366411.测试集和训练集（3：7比例）数据来源：http://archive.ics.uci.edu/ml/dataset...

2017-11-27 20:15:00 745

转载 R语言之回归树

参考自【数据挖掘与R语言】rpart包可实现回归树。通常分为两步建立回归树：1.生成一棵较大的树 2.通过统计估计删除一些结点来对树进行修剪。回归树基础实现library(rpart)rpart(y~.,data=data1) 参数形式与lm()函数的参数形式相同图形化展示：plot(rm)text(rm)rpar...

2017-11-26 21:56:00 2170

转载 R语言可视化学习之【Lattice包】

本文采用lattice包帮助文档中的代码，进行参数说明和结果解释。Let's beginDepth <- equal.count(quakes$depth, number=8, overlap=.1)xyplot(lat ~ long | Depth, data = quakes)第一行代码调用函数 equal.count()对连续变量quakes$...

2017-11-26 19:58:00 1282

转载搜狗搜索日志分析

1. 概述本文利用搜狗搜索日志的500w条数据，对搜索日志进行了一系列的分析。主要分为两个阶段，第一阶段是数据准备、数据预处理和数据加载阶段，第二阶段为分析阶段。第一阶段首先下载数据，并在自己电脑上安装好实验所需的环境，然后通过数据扩展和数据过滤对原数据进行预处理，得到含有单独年、月、日、小时等字段且关键词和UID不为空的数据，最后将数据加载到HDFS上，并在Hive上创建数据库...

2017-11-25 14:13:00 27815

转载缺失值侦测与处理

缺失值的侦测的方法：1、mice包中的md.pattern()函数可以生成一个以矩阵或数据框形式展示缺失值模式的表格这个矩阵呢，表示像第一行缺失0个的模式有13行，像第二行缺失1个的模式有1行，如此类推所以呢，一共就有0*13+1*1+1*3+2*1+3*7=27个缺失值，也可以算每列的，age列缺0个，hyp列缺8个，bmi列缺9个，chl列缺10个，共缺0+8+...

2017-11-24 15:38:00 407

转载 R语言可视化之箱图

lattice包中的箱图bwplot(Species~Petal.Length,data=iris)拓展：分位箱图library(Hmisc)bwplot(Species~Petal.Length,data=iris,panel=panel.bpplot,probs=seq(0.01,0.49,by=0.01),datadensity=T)...

2017-11-23 21:40:00 427

转载 R语言可视化（一）

直方图和正太曲线x=cars$dist#直方图hist(x,freq = F)#变量的密度图lines(density(x))#正态密度图xfit=seq(min(x),max(x),length=50)yfit=dnorm(xfit,mean=mean(x),sd=sd(x))lines(xfit,yfit)rug(jitter(cars$d...

2017-11-23 21:02:00 209

转载数据检查

在图中找出指定的某条记录主要就是一个identify函数的应用。plot(cars$speed,cars$dist)clicked.lines=identify(cars$dist)#此时在图中选中某个点#打印选中点所在的记录cars[clicked.lines,]　　转载于:https://www.cnblogs.com/Hyacinth...

2017-11-23 21:00:00 154

转载 Rmarkdown 用法技巧备忘

Knitr和Rmarkdown包是数据分析中的动态报告利器，本文介绍其基本使用方法。标题# 一级标题（#+空格+文字）## 二级标题（##+空格+文字）列表无序列表：列表项前加短横线 -有序列表：列表项前加数字文本样式链接 :[Title](URL)加粗 :**Bold**斜体字 :*Italics*删除线 :~~text~~高...

2017-11-20 22:04:00 1404

转载 R语言dplyr包的学习

dplyr包可以看作是plyr包的一个扩展，主要是针对数据框的数据操作。在使用dplyr包中的函数对数据框进行操作之间，最好将其转换为tbl对象：tbl_df()一个很好的效果是，tbl对象可以根据显示空间大小来进行部分显示。利用dplyr包常见的数据操作可归纳为以下5种：1. 筛选 filter()按给定的逻辑判断筛选出符合要求的子数据集, 返回符合条件的子数据集的...

2017-11-19 22:02:00 310

转载数据转换：split-apply-combine模式

本文主要介绍数据转换中的split-apply-combine模式，包括baseR、plyr中的相关函数的应用。split-apply-combine模式大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。因此对数据的转换，可以采用split – apply – combine模式来进行处理：...

2017-11-18 20:47:00 393

转载排序算法

八大排序算法详见http://blog.csdn.net/intheair100/article/details/48734563http://blog.csdn.net/wangiijing/article/details/51485119内部排序：在内存中，主要消耗时间复杂度，用比较次数衡量效率外部排序：不断在内外存间移动，主要消耗空间复杂度，用读/写外村的次...

2017-11-13 12:35:00 110

空空如也

空空如也