自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shaoqiangaa的博客

数据挖掘的私人笔记

  • 博客(13)
  • 收藏
  • 关注

原创 python包含判断-字符串包含词库中的词

这个方法就是将短文本切分成与词库数据等长的词,判断是否包含。速率块,词与词包含关系判断也可用代码复制直接用:'''判断一条语句是否包含词库中的词'''def word_parameter(word_list): '''包含关系方法所需的词典''' word_set = set(word_list) num_list = [len(word) for word in word_set if len(word)>0]#词库字数 num_list = li...

2020-12-04 11:44:03 1426

原创 dataframe在Mysql中批量修改——pymysql、pandas

根据id修改数据库的某一列(for 循环执行语句大批量修改是不行的)1、连接数据库2、sql语句 ①创建临时表(关键字Temporary,处理完自动删除的表) ②批量插入临时表,ID是int类型也用%s(用到了pymysql的excutemany) dataframe转化成特殊list类型 ③根据ID修改操作的字段,我这里是nlp_name_semantics_v33、...

2018-07-07 18:13:17 4606

原创 python调用python脚本(java类似)

(脚本改编成方法整合时间长,不改了直接调用脚本模块)用os汇总执行,os.system( 环境路径+文件路径 ),成功为0,失败为1,失败了找到位置手动执行接下来脚本import osimport pandas as pdimport pymysql#程序环境env_dir = 'D:\ProgramData\Anaconda3\python.exe'#读取的表名db_ta...

2018-07-07 15:57:22 403

原创 java调用python、anaconda

java调用python(含anaconda)注意:1、python脚本必须都用的是绝对路径(可以拼接)2、python脚本调用自定义的模块时要将模块路径添加到环境中。如果用sys.append(模块绝对路径),要每一个脚本都要添加项目所在的路径。cmd命令行执行:  环境路径 空格 项目路径用Runtime.getRuntime().exec()(特别提示:如果想用jyt...

2018-07-07 15:43:05 3400 7

原创 读取数据报错:[Errno 22] Invalid argument

pandas文件报错是因为‘\’转移字符的问题,路径C:\\Users\shaoqiang\Desktop\\village3.xlsx\v制表符,可用'/'或'\\'

2018-04-12 10:27:56 14809 1

原创 构建行政区域字典‘区‘与‘小区‘划分

我要将最后文字(个数不限,镇、城镇都可)与标准库判断确定地址标签,构建字典形式。但我在判断小区时,区也包含在内。我想把这种包含关系去掉。我在多加一个判断,将区字符的个数在加一,这样就能够区分小区和区的关系代码如下:加了一层判断后:...

2018-02-11 10:07:12 578 1

原创 计划与实践(数据挖掘)

书籍:1、统计学习方法2、机器学习实战3、利用Python进行数据分析4、机器学习5、集体智慧编程6、推荐系统实践7、业务建模与数据挖掘8、python编程重入门到实践课程:1、Coursera 吴恩达公开课2、机器学习必修之线性代数和矩阵论(http://www.mooc.ai/course/252/material/    {15601305627 : zhangmk521})3、吴恩达网易斯...

2018-02-10 08:42:53 238

原创 空值过滤——data[data['索引'].notnull()]无法过滤

进行空值处理时,注意空白是‘’还是None,两者形式一致但在代码中不相等,前者是字符串类型,后者是NoneType。在判断等操作中要十分注意。下面是工作中遇到的这种问题。分类统计也算一类探究原因:最终解决方案...

2018-02-09 13:29:11 1115

转载 新闻链接

2/10题目:阿里算法工程师内推面试经历摘要:远程桌面面试,要求写代码实现判断两棵二叉树是否相等的功能链接:http://blog.csdn.net/MrChen11/article/details/47177231题目:摘要:链接:2/9题目:从传统外企到阿里 P9,这位 Java 工程师经历了什么?摘要:肥侠之前工作的外企做的是中间件软件,针对的是企业级,并不面向终端用户,相对来说稳定很多。但...

2018-02-09 08:51:12 228

转载 数据处理——pandas日期时间

1、批量删除时间保留日期data1['受理时间'].dt.normalize()链接:http://blog.csdn.net/pipisorry/article/details/52209377

2018-02-06 11:36:30 969

原创 数据处理——pandas替换科学计数法数字

用pandas读取数据时发现工单编号、电话号码等变成科学计数法记录。通过观察当电话号码类型是float时采用科学计数法,而int不会。将电话号码转化成int类型(在Excel里电话号码转化成字符串类型也没有解决问题)1、首先要将空值转化成数值,这里我转化成了-1(这里我把data2所有字段都填了-1)data2 = data2.fillna(-1)2、将电话号码字段转化成int类型

2018-02-06 10:48:31 21710

原创 数据处理——apply函数匹配库中相等数据(用for循环寻找相等项)

我有一个电话库,需要将某个表中与电话库里相同的表数据取出。我用的是pandas里的Dataframe格式数据,我要将在库里存在的表数据标为1,没有的标为0。我在apply函数应用了for循环对库中所有元素与其比较。这里要十分注意一旦库里存在则标为1并停止循环,否则被标记为1的数会在未停下的for循环里又被覆盖为0。def deal(x):    for p in phones:    

2018-02-06 10:47:08 642

原创 数据处理——列表remove和copy共用的必要性(或list2 = list1[:] )

列表复值不能创建两个列表,如图中实例所示。也可list3 = list1[:]创建两个列表。                                          图一                                图二...

2018-02-06 10:37:30 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除