自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 【python 走进NLP】英文敏感词过滤算法改进版本

中文DFA算法过滤敏感词改进版本# 中文DFA算法过滤敏感词改进版本class Chinese_DFAFilter(): def __init__(self): self.keyword_chains = {} self.delimit = '\x00' def add(self, keyword): keyword = key...

2018-10-31 20:32:35 2279

原创 【python 字母索引】找到英文句子里面每个单词最后一个字母的索引

# -*- coding:utf-8 -*-sentence="shi yuan li mei"def find_english_word_last_index(sentence): """ :param sentence: 英文句子 :return: 返回英文句子的每个单词最后的字母的索引 &q

2018-10-31 18:28:37 2782

原创 【linux 进程杀死】批量杀死进程

一次杀死包含 api_antispan 开头的的所有进程查看所有进程号命令:ps -ef | grep api_antispan | awk '{print $2}'使用xargs kill所有进程ps -ef | grep api_antispan | awk '{print $2}'|xargs kill -9...

2018-10-29 20:19:39 818

原创 【python 走进NLP】两种高效过滤敏感词算法--DFA算法和AC自动机算法

1、DFA过滤敏感词算法在实现文字过滤的算法中,DFA是比较好的实现算法。DFA即Deterministic Finite Automaton,也就是确定有穷自动机。算法核心是建立了以敏感词为基础的许多敏感词树。python 实现DFA算法:# -*- coding:utf-8 -*-import timetime1=time.time()# DFA算法class DFAFi...

2018-10-19 11:34:04 14355 11

原创 【go语言 安装包】windows go get安装第三方包的前提条件和步骤

1、首先必须设置环境变量GOPATH的路径2、安装git for windows3、将 git 安装目录下的一个路径加载到pathD:\Program Files\Git\cmd4、安装第三方包进入cmdgo get -v github.com/antlinker/go-dirtyfilter...

2018-10-18 15:23:39 3163

原创 【go 语言环境安装】goland语言环境安装配置详解

1、下载go下载地址:https://golang.google.cn/dl/打开网址,由于我的电脑是win64,所以下载第一个。2、安装go2.1、UNIX/Linux/Mac OS X, 和 FreeBSD 安装以下介绍了在UNIX/Linux/Mac OS X, 和 FreeBSD系统下使用源码安装方法:1、下载二进制包:go1.11.linux-amd64.tar.gz。...

2018-10-18 14:31:04 13340

原创 【oracle 流程控制】oracle数据库流程控制语句控制PL/SQL语句

1、条件语句 if else判断#声明变量declare employee_sa number;beginselect count(*) into employee_sa from employees where salary>6000;if employee_sa=1 then dbms_output.put_line('本公司有一名薪资大于6000的员工');elsif ...

2018-10-13 11:58:29 449

原创 【python 走进NLP】pyhanlp 自然语言处理包

安装:pip install pyhanlp若安装失败:从这里下载JPype allows full access to Java class libraries.https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype开源地址:https://github.com/hankcs/pyhanlpHanLP是一系列模型与算法组成的NLP工具...

2018-10-10 15:38:13 1247 2

原创 【oracle 处理日期型数据】常见日期数据处理

获得当前日期 sysdate()为日期加上特定月份 add_months(end_date,1)求日期所在月的最后一天 last_day()计算两个日期所差的月数 months_between()计算日期之后的一周之内的日期 next_day()截取日期 trunc(日期,截取格式)获取当前时区的当前日期 current_date()获取当前时区的时间戳 current——time...

2018-10-09 20:54:32 393

原创 【oracle 处理数值型数据】常见数值处理

计算绝对值 abs(-100)求四舍五入值 round(186.3430,1)向上取整 ceil(-204.23)向下取整 floor(-204.23)取模求余数 mod(num,2)判断数值的正负 sign(salary)求平方根 sqrt(salary)乘方 power(2,3)截取数字,不进行四舍五入 trunc(186.658,2)按照ASCII码转换为字符 chr(1...

2018-10-09 20:29:19 515

原创 【python 走进NLP】利用SnowNLP 训练自己的情感分析库

介绍SnowNLP是一个python写的类库,可以方便的处理中文文本内容。可以做很多事情,如:中文分词(Character-Based Generative Model)词性标注(TnT 3-gram 隐马)情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)文本分类(Naive Bayes)转换成拼音(Trie树实现的最大匹配)繁体转简体(Tri...

2018-10-09 18:34:16 12288 6

原创 【python 列表里的列表】列表的扁平化

目标:列表含有子列表展开成一个列表,列表的扁平化如:[['智利', '葡萄牙', '德国']] 转换为 ['智利', '葡萄牙', '德国']# 代码实现k1=[['智利', '葡萄牙', '德国']] k2 = sum(k1, [])print(k2)元素都为列表: listA = [['a'], ['b'], ['c', 'd']] 展开成listA1 = ['a'...

2018-10-09 14:36:09 9703 2

原创 【oracle 处理字符型数据】常见字符串操作

oracle提供了丰富的字符串函数来处理字符型数据。向左补全字符串 lpad(id,5,‘0’)向右补全字符串rpad(id,5,‘0’)字符串转换为小写形式 lower(string)字符串转换为大写形式 upper(string)单词首字母大写,其他字符小写 initcap(string)获取字符串长度 length(string)截取字符串 substr(string,st...

2018-10-08 21:23:57 329

原创 【python apply】python 中apply、map、applymap的用法

apply 用在dataframe上,用于对row或者column进行计算applymap: 作用在dataframe的每一个元素上map (其实是python自带的)用于series上,是元素级别的操作,map 跟apply 功能类似,用法差不多# encoding: utf-8import pandas as pddata=pd.DataFrame({'user_id':['A...

2018-10-08 15:13:33 1622

原创 【maven 错误解决】@Override is not allowed when implement interface method

Intellij IDEA,有时候 @Override却显红编译不通过。解决方法:由于我的项目是maven类型项目,所以在pox.xml的标签中添加如下代码,即可解决问题。<build> <plugins> <!-- 编码和编译和JDK版本 --> <plugin&a

2018-10-08 12:28:54 670

原创 【python 文本翻译】python文本翻译功能

从一种语言到另一种语言的文本翻译在各种网站中越来越普遍。 帮助我们执行此操作的python包称为translate。可以通过以下方式安装此软件包。 它提供主要语言的翻译。pip install translate使用方法:# encoding: utf-8from translate import Translator# 以下是将简单句子从英语翻译中文translator= ...

2018-10-01 22:56:38 10175 6

原创 【python 装饰器】深入理解python装饰器

要想彻底搞懂Python中的装饰器,除了需要有一点Python中的函数基础,还需要解决如下四个问题。当我们解决了这四个问题后,也就彻底搞懂Python中的装饰器。1.什么是装饰器,其本质是什么?2.装饰器有什么作用?3.装饰器有什么使用特点(使用原则)?4.装饰器的应用场景提示:如果你还不知道Python中的函数,请先了解函数后,再来学习。下面我们依次来回答。第一部分:什么是装饰器,...

2018-10-01 22:21:33 366

原创 【python 打印格式化】python 中的打印美颜机pprint

python模块pprint用于为python中的各种数据对象提供正确的打印格式。 这些数据对象可以表示字典数据类型,甚至可以表示包含JSON数据的数据对象。1、安装pprint包pip install pprint2、看看几个例子# encoding: utf-8import pprintstudent_dict = {'Name': 'Tusar', 'Class': 'XI...

2018-10-01 19:40:16 532

原创 【python 列表去重保持顺序】python 列表去重后保持原来的顺序

# encoding: utf-8# 定义列表去重返回有序的函数def set_distinct_sort(list1): """ :param list1: 列表 :return: 返回列表去重后保持原来元素的顺序不变 """ list2 = list(set(list1)) list2.sort(key=list1.index) r...

2018-10-01 19:23:42 2648

原创 【python 正则表达式】python正则表达式提取邮箱、网址、手机号、ip地址

要从文本中提取电子邮件、url、手机号、ip地址等,我们可以使用杀手锏正则表达式。下面是我封装的函数,方便以后拿来直接用。# encoding: utf-8import re# 自定义获取文本电子邮件的函数def get_findAll_emails(text): """ :param text: 文本 :return: 返回电子邮件列表

2018-10-01 19:01:44 30962 4

gbdt和xgboost算法详解

该文档详细介绍了机器学习算法中的GBDT和XGboost 两大神器

2018-01-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除