- 博客(8)
- 资源 (8)
- 收藏
- 关注
转载 文本特征提取方法研究
一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结
2016-04-29 09:45:52 1293
原创 python list 去重重复元素问题
直接上代码:my_list = [1, 1, 3, 4,3, 5, 1]my_list = list(set(my_list))print my_listset集合是不允许元素重复的,通过这种手段达到去重的目的
2016-04-26 14:36:26 696
原创 去除notepad++内容中的时间
去除notepad++内容中的时间可以使用正则表达式来清除时间 对于格式形如:2015-12-30-20:29:54 可以使用正则:2015-12-.*-.*:.*:.*
2016-04-20 09:57:48 2173
原创 python selenium 爬虫页面滚动条滚动到页面底部
用到python爬虫时候的网页需要拖动滚动条才能获取下一步操作,网上大多数说的是调用js代码,自己用的不行,不能拖动到页面的最底部。现在上传我自己的代码,供大家相互学习借鉴:from selenium import webdriverfrom selenium.common.exceptions import TimeoutException#引入ActionChains鼠
2016-04-20 08:48:26 17600 8
原创 java时间戳转换
废话不多说,直接上代码: SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");String date = sdf.format(new Date(1438358413*1000L));System.out.println(date);
2016-04-15 20:03:14 465
原创 python 写文件编码错误 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-10: ordinal n
python在写文件的时候经常遇到编码问题。下面直接上问题: UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-10: ordinal not in range(128)我在写python文件的时候,汉字字符串编码是utf-8,写入txt文件时候报错。两种解决
2016-04-11 17:14:40 3282
转载 ubuntu下安装android-studio
Ubuntu环境下配置Android Studio之前学习Android开发的时候,一直跟各种教程一样,使用的是Eclipse+ADT,主要是比较方便,容易上手,特别是对于习惯用Eclipse开发java的朋友来说,上手更是好无压力。但毕竟Eclipse+ADT最多只能算Google的干儿子,特别是在有了亲儿子Android Studio后,今后的潮流必定是使用Android Stud
2016-04-09 12:35:08 348
原创 java中的宏定义
之前编写单片机时候经常用到C/C++中的宏定义,以“#define **” 的形式出现。java中也有“宏变量”,不过是另一种形式。final是java中的一个关键字,用来修饰类、成员变量、局部变量、方法,表示不可变。当final修饰一个变量时,已经为该变量指定了初始值,那么这个变量在编译时就可以确定下来,那么这个final变量实质上就是一个“宏变量”,编译器会把程序中
2016-04-01 14:49:05 8276
backports.lzma-0.0.14-cp36-cp36m-linux_x86_64.whl
2022-04-02
glibc-2.15-install.zip
2020-11-10
vue.js全套详解百度盘链接.txt
2020-04-30
python3.6.tar.gz
2019-11-16
web服务器上传功能需要的jar包
2016-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人