borayolo-CSDN博客

原创 bert-modeling代码学习

2019-07-04 15:30:26 1843 2

原创 bert-create_pretraining_data代码学习

2019-07-04 15:29:32 541 1

原创 bert-tokenization代码学习

2019-07-04 15:28:33 2684 1

原创 F tensorflow/python/lib/core/bfloat16.cc:675] Check failed: PyBfloat16_Type.tp_base != nullptr

F tensorflow/python/lib/core/bfloat16.cc:675] Check failed: PyBfloat16_Type.tp_base != nullptrpip install tf-nightly 解决！

2019-03-06 20:41:24 5891 5

转载数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢

2018-01-30 17:37:33 450

转载 SAS日期和时间函数

常用日期和时间函数有： MDY(m,d,yr) 生成yr年m月d日的SAS日期值 YEAR(date) 由SAS日期值date得到年 MONTH(date) 由SAS日期值date得到月 DAY(date) 由SAS日期值date得到日 WEEKDAY(date)

2018-01-17 11:17:12 36392

原创 python_20171123_二手车信息探索

## ************第一步：抓取该平台二手车的所有品牌 ***************import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport os#貌似是自带的，不用下载包了from sklearn.linear_model import LinearRegressionplt.rc

2017-12-20 17:26:25 532

转载 python_20171122_python3.6.1 pd.read_csv()输入中文路径OSError: Initializing from file failed

问题：pd.read_csv()读取文件路径为中文，出现OSError: Initializing from file failed错误；解决：在网上看到

2017-11-22 21:03:52 1273 1

原创 python_20171120_read_csv读取数据编码问题

问题：自己建立了一个excel文件，另存为csv，读取是错误：utf-8.codec can't decode byte 0xb5 in position 2: invalid start by。解决办法：用记事本另存，将编码改为utf-8。

2017-11-20 21:50:03 3048

转载 python数据持久存储：pickle模块的基本使用

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。　　基本接口：　　pickle.dump(obj, file, [,protocol])　　注解：将对象obj保存到文件file中去。　　　　　protoc

2017-11-18 15:19:45 328

转载 R语言常用包分类总结

常用包：——数据处理：lubridata ，plyr ，reshape2，stringr，formatR，mcmc；——机器学习：nnet，rpart，tree，party，lars，boost，e1071，BayesTree，gafit，arules；——可视化包：ggplot2，lattice，googleVis；——地图包：ggmap，RgoogleMaps，rworldma

2017-06-15 17:04:04 6477

转载 R语言_缺失值问题

主要用到VIM和mice包[plain] view plain copyinstall.packages(c("VIM","mice")) 1.处理缺失值的步骤步骤：（1）识别缺失数据；（2）检查导致数据缺失的原因；（3）删除包含缺失值的实例或用合理的数值代替（插补）缺失值缺失值数据的分类：（1）完全

2017-06-07 20:26:09 1811

转载 R语言_rpart包和party包的简单比较

决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强，不怕噪声数据和缺失数据。决策树模型的基本计算步骤如下：先从n个自变量中挑选一个，寻找最佳分割点，将数据划分为两组。针对分组后数据，将上述步骤重复下去，直到满足某种条件。在决策树建模中需要解决的重要问题有三个：如何选择自变量如何选择分割点确定停止划分的条件

2017-05-23 17:34:59 8327

转载机器学习_推荐系统_潜在因子算法

作者：nick lee链接：https://www.zhihu.com/question/26743347/answer/34714804来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。这里我想给大家介绍另外一种推荐系统，这种算法叫做潜在因子（LatentFactor）算法。这种算法是在NetFlix（没错，就是用大数据捧火《纸牌屋》的那家

2017-05-23 11:06:59 3199

原创 R语言_car_可视化

library(ggplot2)library(plyr)library(reshape2)#!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!#ggplot()不要分行写，都放在一行，要不然不好使！！！！！！！！！！！！！！！！#!!!!!!!!!!!!!!!!!!!!!!!!!vehicleshead(vehicles)colorscolors_

2017-05-22 16:49:48 1994

转载 R语言_ggplot2 分面相关设置（facet）

分面设置在ggplot2应该也是要经常用到的一项画图内容，在数据对比以及分类显示上有着极为重要的作用，下面是两个经常要用到的分面函数。facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed", shrink = TRUE, as.table = TRUE, drop = TRUE)facet_grid(fac

2017-05-22 14:42:40 48170 2

转载机器学习-推荐系统中基于深度学习的混合协同过滤模型

近些年，深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说，深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用，并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Structure for

2017-05-18 15:21:30 9243 2

原创 python:_csv.Error: line contains NULL byte错误

#! /usr/bin/env python#coding=utf-8import networkx as nximport unicodecsv as csvpath="F:/Data/exe/marvel.csv"def graph_from_csv(path): graph=nx.Graph(name="Heroic Social Network") with op

2017-05-15 15:41:53 4068 1

原创 python_car_可视化

#! /usr/bin/env python#coding=utf-8import pandas as pdimport numpy as np#import ggplotimport matplotlib.pyplot as pltpath="F:/Data/exe/vehicles.csv"vehicles=pd.read_csv(path)#print(len(vehicle

2017-05-12 17:42:36 1147

转载 sql_ERROR: ASCII

由 ASCII '\0' 引起的MYSQL SOURCE错误今天在群里面有一个朋友给出一个错误：source test.sqlERROR: ASCII '\0' appeared in the statement, but this is not allowed unless option --binary-mode is enabled and mysql

2017-05-05 15:57:16 3702

原创 urllib.error.URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。>

不知道怎么办？

2017-05-01 20:30:20 16130 7

原创 python_ad_pca

#! /usr/bin/env python#coding=utf-8import pandas as pdimport numpy as np#定义一个函数：1.前几个特征是数值，pandas把他们看成是字符串2.处理缺失值def convert_number(x): try: return float(x) except ValueError:

2017-05-01 13:30:55 859 1

转载 python_pandas.read_csv

pandas.read_csv参数整理读取CSV（逗号分割）文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html参数：filepath_or_buffer : str，pathlib。str, pathlib.Path, py._p

2017-05-01 13:10:32 1169

原创 python_adult_pca

#! /usr/bin/env python#coding=utf-8import pandas as pdroot="F:/Data/exe/3_adult/"#我没等网页全部加载出来就全选复制了，导致数据集未完整！！！！！！！！！！！！！adult=pd.read_csv(root+"adult.data.txt",header=None)adult.columns=(["Age",

2017-05-01 11:34:24 1120

原创 python_movie_apriori

#! /usr/bin/env python#coding=utf-8import pandas as pdroot="F:/Data/exe/ml-100k/"all_ratings=pd.read_csv(root+"u.data",delimiter="\t",header=None)#原始数据是制表符且没有表头all_ratings.columns=(["UserId","Mov

2017-04-30 16:36:33 982

原创 python_nba_tree

#! /usr/bin/env python#coding=utf-8import pandas as pdroot="F:/Data/data/"nba=pd.read_csv(root+"nba.txt",parse_dates=["Date"])nba.columns=["Date","Start","Visitor Team","Visitor Pts","Home Team",

2017-04-29 23:21:11 476

转载 anaconda 使用import sklearn.model_selection 出错ImportError: No module named model_selection

昨天在运行Python项目时，报ImportError: No module named 'sklearn.model_selection'，当我使用pip install sklearn.model_selection时，仍然报错，报错信息如下：问题原因在anaconda中通过如下命令查看sklearn的版本： in: sklearn.version o

2017-04-28 17:01:37 1574 1

转载 python_pandas

首先推荐一个比较好的Python pandas DataFrame学习网址网址: http://www.cnblogs.com/chaosimple/p/4153083.html说明:首先百度Python pandas DataFrame,下面列出DataFrame该数据结构的部分使用方法,并对其进行说明, DataFrame和Series作为padans两个主要的数据结构

2017-04-28 14:47:47 363

borayolo的博客