自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中国小宝

数据挖掘, Python, 机器学习,Java,爬虫

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python代码风格指南&编程规范

1 前言         纷吾既有此内美兮,又重之以修能。 ---- 屈原《离骚》  1.1 编写目的         本文用于指导我司使用python语言进行开发的人员。 1.2 范围         测试人员、开发人员以及其他python语言使用者。 2 简介         很多语言都有自己独有的编码风格,python以简洁优美著称,当然也不能例外。如果和本文规则发生任何冲突,...

2018-10-23 14:55:02 4534

原创 史上最全的中文词汇数据集

        腾讯正式开源一个大规模、高质量的中文词向量数据集。数据集中有800多万中文词汇,相比现有搜狗实验室,清华和哈工大公布的语料库,覆盖率、新鲜度及准确性上有大幅的提高。 1、介绍         该语语料库给超过800万个中文单词和短语提供了200维矢量,有了这些词向量我们可以轻松的用于计算余弦相似度,海明距离,词向量距离等,可以广泛应用与具体的NLP处理、人工智能方向的应用。 ...

2018-10-21 20:02:42 10510 4

原创 解决jekins发布权限不足的问题 ERROR: Exception when publishing, exception message [Permission denied]

        用jenkins打包往各节点自动发布代码时,遇到如下问题: eie_info\\middlewares\\redirect_middleware.py', 'A eie_info\\middlewares\\user_agents.py', 'A eie_info\\scrapy.cfg', '已导出版本 37042。'] export success in mo...

2018-10-17 20:14:02 22636 1

转载 【逆向工程2】反爬虫机制报告

今天的主题是反爬虫机制,网站如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈。 一阶爬虫(技术篇) 应用场景一:静态结果页,无频率限制,无黑名单。 攻:直接采用scrapy爬取 防:nginx层写lua脚本,将爬虫IP加入黑名单,屏蔽一段时间(不提示时间) 应用场景二:静态结果页,无频率限制,有黑名单 攻:使用代理(http proxy、VPN),随机use...

2018-10-16 10:17:23 446

转载 BiLSTM-CRF模型做基于字的中文命名实体识别

      在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。       小白一枚,简单介绍一下模型和实验结果,BiLSTM-C...

2018-10-14 12:29:15 6291 1

原创 定期清空大日志文件

        过完十一假期来发现,节前部署的十台服务器磁盘都占满了,导致各节点的服务都停止了。吃一堑,长一智。于是今天写个shell脚本定期清空日志文件,这里不要用删除,以免影响到正在启动的服务。 1、确定大日志文件的路径         用find 指令找一下就可以定位到需要清理的日志,如下查找的 / 目录下大于50M的文件 find . -type f -size +50M 2、清...

2018-10-08 21:15:13 1499

366万常用的中文词汇整理

作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除