- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 Python代码风格指南&编程规范
1 前言 纷吾既有此内美兮,又重之以修能。 ---- 屈原《离骚》 1.1 编写目的 本文用于指导我司使用python语言进行开发的人员。 1.2 范围 测试人员、开发人员以及其他python语言使用者。 2 简介 很多语言都有自己独有的编码风格,python以简洁优美著称,当然也不能例外。如果和本文规则发生任何冲突,...
2018-10-23 14:55:02 4534
原创 史上最全的中文词汇数据集
腾讯正式开源一个大规模、高质量的中文词向量数据集。数据集中有800多万中文词汇,相比现有搜狗实验室,清华和哈工大公布的语料库,覆盖率、新鲜度及准确性上有大幅的提高。 1、介绍 该语语料库给超过800万个中文单词和短语提供了200维矢量,有了这些词向量我们可以轻松的用于计算余弦相似度,海明距离,词向量距离等,可以广泛应用与具体的NLP处理、人工智能方向的应用。 ...
2018-10-21 20:02:42 10510 4
原创 解决jekins发布权限不足的问题 ERROR: Exception when publishing, exception message [Permission denied]
用jenkins打包往各节点自动发布代码时,遇到如下问题: eie_info\\middlewares\\redirect_middleware.py', 'A eie_info\\middlewares\\user_agents.py', 'A eie_info\\scrapy.cfg', '已导出版本 37042。'] export success in mo...
2018-10-17 20:14:02 22636 1
转载 【逆向工程2】反爬虫机制报告
今天的主题是反爬虫机制,网站如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈。 一阶爬虫(技术篇) 应用场景一:静态结果页,无频率限制,无黑名单。 攻:直接采用scrapy爬取 防:nginx层写lua脚本,将爬虫IP加入黑名单,屏蔽一段时间(不提示时间) 应用场景二:静态结果页,无频率限制,有黑名单 攻:使用代理(http proxy、VPN),随机use...
2018-10-16 10:17:23 446
转载 BiLSTM-CRF模型做基于字的中文命名实体识别
在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。 小白一枚,简单介绍一下模型和实验结果,BiLSTM-C...
2018-10-14 12:29:15 6291 1
原创 定期清空大日志文件
过完十一假期来发现,节前部署的十台服务器磁盘都占满了,导致各节点的服务都停止了。吃一堑,长一智。于是今天写个shell脚本定期清空日志文件,这里不要用删除,以免影响到正在启动的服务。 1、确定大日志文件的路径 用find 指令找一下就可以定位到需要清理的日志,如下查找的 / 目录下大于50M的文件 find . -type f -size +50M 2、清...
2018-10-08 21:15:13 1499
366万常用的中文词汇整理
2018-09-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人