知识蒸馏KnowledgeDistillation.zip
本资源是知识蒸馏的相关代码:老师模型+学生模型,以及学生模型需要用到的KDLoss
OCRTesseract.zip
本项目是利用OCR进行 文转图-图转文,可以理解成有种网络安全专属手段。
ChineseVerify:OCR图转文所需要的中文包
你需要的操作:
加入环境变量
export TESSDATA_PREFIX=/usr/local/Cellar/tesseract/4.1.0/share/tessdata
用ChineseVerify中的tessdata替换/usr/local/Cellar/tesseract/4.1.0/share/tessdata/
tessdata_back_org:官方自带的tessdata包
OcrChineseVerify.zip
这个文件是OCR中文识别的基于tesseract的安装包,它是需要搭配pytesseract一起使用的,下载后记得还需要调整路径:export TESSDATA_PREFIX=/usr/local/Cellar/tesseract/4.1.0/share/tessdata,下载后,用tessdata替换/usr/local/Cellar/tesseract/4.1.0/share/tessdata/
Sentiment-Analysis-Chinese-pytorch-master.zip
本项目使用了word2vec的中文预训练向量
模型分别有BiLSTM-attention和普通的LSTM两种
1、在Config中配置相关参数
2、然后运行DataProcess.py,生成相应的word2id,word2vec等文件
3、运行主函数main.py,得到训练好的模型,并保存模型
4、运行eval.py,读取模型,并得到评价
5、模型准确率平均85%左右
KnowledgeGraph知识图谱+智能问答
本项目包含:医学数据json39_tq.json、接口asr_api.py、导入数据2知识图谱creat4KG.py、人机对话ChatRob.py
ocrWeb.zip
Web识别版Ocr项目,其中ocr内核为baidu-aip、前端内核为HTML+CSS+JS、后端内核为Python
ocr_ag.zip
本文件包括:OCR文字识别要完成的任务、OCRdataset设置、CTPN文字检测网络概述、序列网络的作用、输出结果含义解析、CTPN细节概述、CRNN识别网络架构、CTC模块的作用
BoYa数据分析.zip
Numpy 基础、数据初步探索、数据分组与聚合、数据转换与融合2、数据分组与聚合Numpy 基础、数据初步探索、数据分组与聚合、数据转换与融合2、数据分组与聚合Numpy 基础、数据初步探索、数据分组与聚合、数据转换与融合2、数据分组与聚合
大数据之HDFS.docx
大数据-HDFS支持文档 包含HDFS讲解与实战命令:$>start-all.sh
$>stop-all.sh
$>start-dfs.sh
$>start-yarn.sh
$>stop-dfs.sh
$>stop-yarn.sh
HDFS软件包.zip
hadoop-lzo-master.zip、lz4-1.7.5.tar.gz、lzo-2.06.tar.gz、nexus-2.9.0.war、hadoop2x-eclipse-plugin.zip、jdk-8u111.zip
NewsAnalyse.zip
本文件包含:chinese_news.csv、pretreatment.py、eda.py、wordcount.py、w2v.py、classifyMod.py
本文件主要方向为 数据可视化与文本分类
Spy_CodingPark
本文件包含:pythin代码、爬虫文件、数据分析
angelababy.py、plo.py、Na.py等
angelababy_programs_org.csv等
CRF_Learning_CodingPark
本文件为利用CRF进行命名实体识别
内容包括:199801.txt、data_clean.py、segment.py、train_data.py、model_evaluation.py、Find_It.py
以及CRF++安装包
DeepNLPStock_advanced_CodingPark
本文件包含两个文件夹:开发源码与相关资料
具体包括CNNStock_advanced.py、Cross_val.py、TF.py、W2V_CNN_StockAdvanced、W2V_CNN_StockAdvancedTest.py、Combined_News_DJIA.csv
InfoExtra人名识别
本文件包括:Hanlp.py、Corgi_Demo.py、CorgiHMM.py; 利用cocoNLP的InfoExtra.py 等程序
bayes_CodingPark
本文件包含:bayes_NewsClassification.py、Database、stopwords_cn.txt、data.csv、LanguageDetect.py
kafka2hdfs_CodingPark
主要完成 kafka 生产数据、接数据 、通过Java代码上传数据的完整流程
文件包括:hdfstest.java、kafkatest.java、Producer.java、NewConsumer.java、NewConsumer2HDFS.java
kafka搭建所需包_CodingPark
kafka搭建压缩包里包括 Linux所需 zookeeper-3.5.7-bin.tar 和 kafka_2.13-2.4.1.tar
英文拼写鉴别器_CodingPark
书写语言:Python 程序用途:英文拼写鉴别器。可检查出含有拼写错误的单词且可给出建议提示。主要用到了PyEnchant ,下载PyEnchant的过程可以说是份艰辛了,我在本程序对应的博客中有详细图文解释。
大数据相关指导资料_CodingPark.zip
本文将包括:Hadoop 安装;hadoop插件安装;WordCount(+排序);采集电商网站交易及评论数据3.1;开发MR程序清洗电商评论数据3.2;4.1利用HiveSQL离线分析评论数据;4.2利用Sqoop进行数据迁移至Mysql数据库;Jweb+Echart;Spark进行实时数据分析(上)Spark进行实时数据分析(下);
GenerateFile_CodingPark.zip
本项目主要实现:利用java对本地文件进行1本地数据通过路径读取的操作,2写入本地文件,3读取文件并且将读取到的文件写入本地生成一个新的文件
bayes(NewsClassification&LanguageDetect)_CodingPark.zip
本在压缩包内含有基于贝叶斯的新闻分类与语种鉴别
贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。
Fop2PDF_TEAM-AG_4.15_CodingPark.zip
1 本zip包为完整项目 2 实现了 写出一个 xml ,写出一个XSLT(fo)式样单,将该XML文档经过XSLT(fo)转换成XSL-FO,再采用FOP将上述文档转换成PDF格式
pokemon_CodingPark.zip
pokemon图像数据包包括自定义数据机搭配自定义数据机-pokemonGO_完整项目_CodingPark,pokemon图像数据包含有5类图像:皮卡丘、妙蛙种子、杰尼龟、超梦、小火龙。