2018年10月_中国小宝

12月 11月 10月 09月 08月 07月 04月 01月

原创 Python代码风格指南&编程规范

1 前言纷吾既有此内美兮，又重之以修能。 ---- 屈原《离骚》 1.1 编写目的本文用于指导我司使用python语言进行开发的人员。 1.2 范围测试人员、开发人员以及其他python语言使用者。 2 简介很多语言都有自己独有的编码风格，python以简洁优美著称，当然也不能例外。如果和本文规则发生任何冲突，...

2018-10-23 14:55:02 4534

原创史上最全的中文词汇数据集

腾讯正式开源一个大规模、高质量的中文词向量数据集。数据集中有800多万中文词汇，相比现有搜狗实验室，清华和哈工大公布的语料库，覆盖率、新鲜度及准确性上有大幅的提高。 1、介绍该语语料库给超过800万个中文单词和短语提供了200维矢量，有了这些词向量我们可以轻松的用于计算余弦相似度，海明距离，词向量距离等，可以广泛应用与具体的NLP处理、人工智能方向的应用。 ...

2018-10-21 20:02:42 10510 4

原创解决jekins发布权限不足的问题 ERROR: Exception when publishing, exception message [Permission denied]

用jenkins打包往各节点自动发布代码时，遇到如下问题： eie_info\\middlewares\\redirect_middleware.py', 'A eie_info\\middlewares\\user_agents.py', 'A eie_info\\scrapy.cfg', '已导出版本 37042。'] export success in mo...

2018-10-17 20:14:02 22636 1

转载【逆向工程2】反爬虫机制报告

今天的主题是反爬虫机制，网站如何能保护好自己的数据，又不影响正常用户体验，所谓当今业界一场持久的攻防博弈。一阶爬虫（技术篇）应用场景一：静态结果页，无频率限制，无黑名单。攻：直接采用scrapy爬取防：nginx层写lua脚本,将爬虫IP加入黑名单，屏蔽一段时间（不提示时间）应用场景二：静态结果页，无频率限制，有黑名单攻：使用代理（http proxy、VPN），随机use...

2018-10-16 10:17:23 446

转载 BiLSTM-CRF模型做基于字的中文命名实体识别

在MSRA的简体中文NER语料（我是从这里下载的，非官方出品，可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料）上训练NER模型，识别人名、地名和组织机构名。尝试了两种模型：一种是手工定义特征模板后再用CRF++开源包训练CRF模型；另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。小白一枚，简单介绍一下模型和实验结果，BiLSTM-C...

2018-10-14 12:29:15 6291 1

原创定期清空大日志文件

过完十一假期来发现，节前部署的十台服务器磁盘都占满了，导致各节点的服务都停止了。吃一堑，长一智。于是今天写个shell脚本定期清空日志文件，这里不要用删除，以免影响到正在启动的服务。 1、确定大日志文件的路径用find 指令找一下就可以定位到需要清理的日志，如下查找的 / 目录下大于50M的文件 find . -type f -size +50M 2、清...

2018-10-08 21:15:13 1499

366万常用的中文词汇整理

作者：刘邵博此词典为个人综合多本词典整合的一个大词典，词典共有词汇3669216个词汇。词典结构为：词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。部分词汇无法确定是什么词性，对词性进行特别标注：nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Python代码风格指南&编程规范

原创 史上最全的中文词汇数据集

原创 解决jekins发布权限不足的问题 ERROR: Exception when publishing, exception message [Permission denied]

转载 【逆向工程2】反爬虫机制报告