'Humz
码龄6年
关注
提问 私信
  • 博客:79,008
    79,008
    总访问量
  • 24
    原创
  • 2,066,326
    排名
  • 30
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2018-08-21
博客简介:

weixin_43025542的博客

查看详细资料
个人成就
  • 获得56次点赞
  • 内容获得32次评论
  • 获得249次收藏
  • 代码片获得475次分享
创作历程
  • 7篇
    2022年
  • 5篇
    2021年
  • 6篇
    2020年
  • 7篇
    2019年
成就勋章
TA的专栏
  • python
    15篇
  • 机器学习
    2篇
  • rnn
    3篇
  • 深度学习
    10篇
  • NLP
    3篇
  • 知识图谱
    1篇
  • 数据库
    1篇
  • 基因
    1篇
  • 基金
    1篇
  • 竞赛
    2篇
  • 时间序列
    1篇
  • 大数据
    3篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【tf-idf】文本转词向量后,词典中单词数量变少

利用tf-idf进行文本转词向量后,词典中单词数量变少
原创
发布博客 2022.10.10 ·
419 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

基于Kmeans的简单聚类分析

对文章数据进行kmeans聚类并简单分析
原创
发布博客 2022.07.06 ·
1131 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

tensorrt安装步骤

安装TensorRT需要安装pycuda,执行如下命令:pip install pycuda若出现以下结果,表示安装成功。正在上传…重新上传取消注意gcc版本,当前tensorrt需要gcc版本为5.0以上查看gcc版本 gcc -v, 若低于5.0则需要升级gcc,具体步骤见如下附件文档:正在上传…重新上传取消tar -zxvf centos.tar.gz然后将里边的lib绝对路径添加到环境变量中,命令如下(以当前用户)vi ~/.bashrc# tensorrt pathexport LD_LIBRA
原创
发布博客 2022.06.21 ·
1607 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Docker离线安装及python算法部署详细教程

算法部署时,常出现测试通过生产上环境各种问题的情况,很影响效率。因此想采用docker的方式部署,市面上的安装都不是很顺利,因此本文总结各种安装方式,采用离线的方式安装,较为稳定且可行。1、Docker离线安装1.1下载docker安装包官方地址:Index of linux/static/stable/x86_64/docker-19.03.9.tgz1.2 解压缩tar -zxvf docker-19.03.9.tgzcp -p docker/* /usr/bin..
原创
发布博客 2022.05.30 ·
1183 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【Docker设置镜像源】failed to start daemon: invalid mirror: unsupported scheme “xxx“ in ‘xxx‘

场景: 当文件夹中包含多个json文件,该如何批量读取
原创
发布博客 2022.05.12 ·
2427 阅读 ·
6 点赞 ·
0 评论 ·
1 收藏

python爬虫(request+xpath的简单demo模板)

记录一个爬取足球赔率信息的一个脚本,方便平时抓取网站直接使用class getLeagueOdds(): def __init__(self, leagueUrl, seasonName, leagueId, header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537
原创
发布博客 2022.03.07 ·
754 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

记一次不同Ner实体命名模型实际生产效果对比

1、数据准备训练数据:医疗影像经过OCR识别后,得到的纯文本数据,且已经过专业标准人员标注。测试数据:与训练数据同源,8:2的比例切分后得到。验证数据:经过本人逐条核验,共150条,非连续实体有50条,嵌套和普通实体有100条。2、模型准备2.1标注方法:bio ,模型:bert,框架:tensorflow基于BERT预训练的中文命名实体识别TensorFlow实现2.2标注方法:globalpointor(多头标注) ,模型:bert,框架:keras详细可参见:G
原创
发布博客 2022.01.11 ·
675 阅读 ·
0 点赞 ·
3 评论 ·
1 收藏

将pandas.dataframe快速导入到mysql数据库中(无需建表)

from sqlalchemy import create_engineimport pandas as pdconnect = create_engine('mysql+pymysql://root:123456@xxx.xxx.xxx.xxx:3306/xxx?charset=utf8')df=pd.read_excel(r"文件地址", header=0) #读取数据 pd.io.sql.to_sql(frame=df,name='table_name',con=connect,if_.
原创
发布博客 2021.12.29 ·
2553 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Nebula执行算法时出现“ERROR ScanVertexResultIterator: get storage client error”

问题表示无法连接上storage client。解决:在Nebula控制台执行show hosts;由于默认是127.0.0.1, storage client在连接nebula storage时,是通过metad服务拿到的storage地址的,所以spark-connector中拿到的storage地址就是127.0.0.1:9779, 这个地址就不对了。因此将默认地址修改为真实地址即可。...
原创
发布博客 2021.11.24 ·
722 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

图数据库-Nebula部署手册

Nebula 安装部署手册一、准备工作近期工作有关反欺诈,调研了一下相关图数据库,之前使用过Neo4j,但最近发现Nebula的表现貌似更为出色,因此记录一下部署的过程。以下安装使用nebula用户。1.1 安装目录nebula主程序、nebula-console安装在/opt目录nebula-studio安装在默认目录(/usr/local/nebula-graph-studio)nebula的数据文件安装在/mnt/data/nebula目录.
原创
发布博客 2021.11.17 ·
2755 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

智能外呼机器人的前世今生

嘟嘟嘟~~~“您好,请问是xx先生(女士)吗?您的保险即将到期哦,请问是否需要立即续保呢?”当电话那头传来一阵阵亲切的问候声,是否幻想着跟你交流的是一位温柔可人的客服小姐姐呢?当你还在浮想翩翩的时候,那可能就要大失所望咯。这温柔的声音可能来源自一位铁憨憨(智能交互机器人)。小伙伴们是不是很诧异,印象中的机器人声音机械且单调,怎么会和上面听到的声音一样呢。自然而然会心生疑问,到底什么是智能交互机器人?智能交互机器人的前世今生在智能外呼逐渐兴起以前,企业通常采用传统的人工外
原创
发布博客 2021.11.17 ·
2191 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

NLP中文本数据扩增的几种方法【一】单词替换

和图像数据增强不同,NLP中文本数据增强比较少见。图像的一些增强操作,如图像旋转、灰度处理等等都不会改变图像的语义,语义不变变换的存在使得增广成为计算机视觉研究中必不可少的工具。但在NLP中进行数据增强很容易就改变了文本的语义,这样就失去了增强的意义。接下来给大家介绍几种能够在不改变基础语言前提下,进行文本数据扩增的方法。同义词替换即采用同义词替换文本中的词,丰富程度取决于同义词的数量,且基本不会改变语义。词向量替换NLP中常见的embeding方式由bert、word2vec、tf-idf等.
原创
发布博客 2021.07.12 ·
1772 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

全国医院名称.xlsx

发布资源 2021.04.07 ·
xlsx

python实现将dataframe直接插入Elasticsearch数据库的方法

由于比较喜欢使用pandas包中的dataframe进行数据预处理,处理完后需要导入到数据库中,为避免重复转换数据格式,一下函数可直接完成导入。from elasticsearch import Elasticsearchdef connect_es(frame, index_, type_): try: es = Elasticsearch(host, http_auth=(user, password), port='9200') df_as_json
原创
发布博客 2020.11.19 ·
1121 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

篮球数据集20200101-20200723

发布资源 2020.07.23 ·
csv

SNP基因数据质控调研

一、基因芯片质量控制简介基因芯片的质量控制是分析基因芯片的第一步。snp的质控是非常重要的,如果snp数据的质量不佳,那么计算的结果的有效性和准确性就无法保证。在进行snp芯片测序采集的过程中,难免出现测序、人工操作等其他方面造成的误差,而非该个体的真实情况,如果不对这些测序出现问题的个体进行筛选控制,必然会对后续操作造成影响,由此可见质控操作的重要性。由于选种、配种等各种业务的需求,为了使各项业务更加精准顺利的展开,我们需要对基因芯片上的snp数据进行质控,当满足一定的质量要求后,才能更准确的计算出各
原创
发布博客 2020.06.28 ·
6246 阅读 ·
8 点赞 ·
0 评论 ·
40 收藏

倍投能赚钱?用数据来说话!python来告诉你答案

总有人会说,倍投只要本金足够大,就能稳赚。怎么说呢,这话不假,但这个本金足够大到底是个什么概念呢?秉持着实践是检验真理的唯一标准,本文用数据来说话,告诉你,到底能不能赚!准备阶段首先我们要模拟一个类似的游戏,比如说丢硬币,这种输赢概率对半的游戏就很适合倍投,纳闷我们先来用python把这个游戏定义一下,比较简单:在这里插入代码片...
原创
发布博客 2020.04.28 ·
4238 阅读 ·
1 点赞 ·
4 评论 ·
5 收藏

NBA数据爬虫+比分预测

1、NBA数据爬虫爬取的数据主要有,主队名称、客队名称、比赛日期、两队各节的分数。数据主要从http://www.stat-nba.com获取。def get_url_content(url): #获取比赛时间 res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.con...
原创
发布博客 2020.03.02 ·
1103 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

天天基金爬虫+策略选基

基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式。本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择。
原创
发布博客 2020.02.15 ·
2358 阅读 ·
5 点赞 ·
0 评论 ·
19 收藏

基于Keras的word2vec词向量训练和embeding

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
转载
发布博客 2020.01.13 ·
1684 阅读 ·
0 点赞 ·
2 评论 ·
19 收藏
加载更多