大数据挖掘
文章平均质量分 54
艳学网
微信公众号关注“艳学网”,获取更多java项目资源!
展开
-
北大团队推出“职场神器”ChatExcel!为帮助文员女朋友,一键处理表格...
1、最近,ChatGPT横空出世,吸引了人们对人工智能领域的目光。北京大学深圳研究生院信息工程学院助理教授袁粒及三名硕博生组成的团队日前开发了一款名为ChatExcel的AI办公辅助工具,可以通过文字聊天实现Excel的交互控制。ChatExcel测试版于今年2月28日发布,仅仅半个月公测网页的日活用户峰值达到11万,独立IP累计访问量逾200万人次。2、ChatExcel是通过文字聊天实现Excel交互控制的AI辅助工具,团队称之为“职场神器”。原创 2023-05-20 19:40:28 · 385 阅读 · 1 评论 -
程序员必备的免费自然语言转SQL (摸鱼)工具,人手必备
显示 2022 年 1 月 1 日至 2022 年 3 月 1 日之间的所有订单。使用 SQL 更新电子产品分类是electronics的价格,并将价格提高10%。请对附加的SQL查询添加筛选条件,仅显示在加州居住且消费总额排名前10位的客户。查询代码的书写顺序和执行顺序。原创 2023-05-19 19:05:24 · 1645 阅读 · 3 评论 -
200行java代码实现ChatDOC
可以上传你的PDF,DOCX和TXT格式的文档,通过我们的模型短时间训练后,您就可以和自己的文档对话,现在支持单文档,后续支持多文档。PDF,DOCX和TXT格式的文档,通过我们的模型短时间训练后,您就可以和自己的文档对话。写的代码都是问GPT的。原创 2023-05-17 22:24:05 · 428 阅读 · 0 评论 -
java实现NER模型识别问题中的实体
3.训练ner模型:可以从头开始制作ner模型,但是stanford corenlp提供了预先训练好的模型,您可以直接使用它们。4.运行模型:使用corenlp服务器上的rest api或调用corenlp提供的java函数运行模型,并将结果输出到新文件或同一文件的新列中。3.易于使用的api:hannlp的java api非常易于使用,开发者可以轻松地将其集成到自己的java应用程序中。1.高质量的中文自然语言处理:hannlp在中文自然语言处理方面表现出色,可以有效地解决复杂的自然语言处理问题。原创 2023-04-28 02:05:49 · 1256 阅读 · 0 评论 -
java实现采用LTP抽取图谱三元组
自然语言查询–>分词(word segmentation)–>意图识别(Intention Recognition)–>实体链指(Entity Linking)+关系识别(Relation Detection) -->查询语句拼装(Query Construction)–>返回结果选择(Answering Selection)语义分析:自动分析用户语句,提供语义分析服务。智能推荐:自动根据用户行为提供智能推荐服务。智能客服:自动完成用户与机器的智能客服服务。智能对话:自动完成用户与机器的智能对话。原创 2023-04-07 00:13:04 · 737 阅读 · 0 评论 -
java实现实体关系抽取
前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,自己开发了一个数据分析工具,叫yandas。信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。例如,「妻子」关系的schema定义为:{S_TYPE: 人物,P: 妻子,O_TYPE: {@value: 人物}}知识抽取原创 2021-06-13 14:32:14 · 2820 阅读 · 3 评论 -
java实现快递单信息识别
前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,自己开发了一个数据分析工具,叫yandas。命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中的一个基础问题。在NER任务提供了两种解决方案,一类LSTM/GRU + CRF,通过RNN类的模型来抽取底层文本的信息,而CRF(条件随机场)模型来学原创 2021-06-13 14:25:57 · 2589 阅读 · 1 评论 -
自研数据分析工具——yandas系列三:基础函数方法
前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,自己开发了一个数据分析工具,叫yandas。1、读取Excel数据List<ListOrderedMap<String, Object>> listMap = excelUtil.read(f1,a);2、处理缺失值List<ListOrderedMap<String, Object>> listMap2 =原创 2021-06-12 09:39:31 · 370 阅读 · 0 评论 -
自研数据分析工具——yandas系列二:分析泰坦尼克号沉船事件中的乘客信息表
前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,自己开发了一个数据分析工具,叫yandas。首先我们看看表:有两张表,A表记录了很多款产品的三个基础字段,分别是产品ID,地区代码和重量:B表是运费明细表,这个表结构很“业务”。每行对应着单个地区,不同档位重量,所对应的运费:现在,我们想要结合A表和B表,统计出A表每个产品付多少运费,应该怎么实现?可以先自己思考一分钟图片分析:1、分别读取表1原创 2021-06-09 10:47:11 · 422 阅读 · 0 评论 -
自研数据分析工具——yandas系列一:分析泰坦尼克号沉船事件中的乘客信息表
前言:前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,自己开发了一个数据分析工具,叫yandas。首先我们看看表:第一个字段就是是否生还,第二个是姓名,然后性别,年龄从表中可以看出地址相同的,票号也一样,说明都是家庭成员一起购票实现几个简单分析需求:找出多人(2人或以上)一起登船的组的数量列出这些人的信息是否存在最幸运的亲朋好友(多人一起登船,同时全部人都获救)? String f1 =原创 2021-06-07 20:56:18 · 381 阅读 · 0 评论 -
百姓网程序员招聘数据分析
前言:21年广州荔湾区成了疫情灾区,很多人都没有工作,被居家隔离,感染病毒概率死亡率是0.005%,没有工作死亡率是100%,因此作为普通老百姓,分析下疫情当前下的招聘信息。步骤分为,采集,处理,可视化第一步,采集输入连接,点击分析,即可获取数据。数据有整体网站源码,网站视图,采集设置,采集内容。采集设置:我们采用正则匹配,因为招聘网站内容序列是固定的。...原创 2021-06-03 22:43:34 · 192 阅读 · 0 评论 -
人工智能之nlp
人工智能之nlp最近,在写自媒体文章,词穷的我写不出一篇优秀的原创文章,对语言的能力掌控只有ctrl加c。听别人说,人工智能可以自动写代码,那自动写文章也可以吧。写了2年博客的我还在坚持原创,但是某些操作需要专业的能力才可以做到,如关键字提取,读完一篇文章,能快速准确提取出本文的重点关键字吗?高中以前应该还可以,我记得以前读书考试的时候有这么一题,请归纳本文的主要思想,看完文章之后,一般...原创 2019-01-21 17:42:31 · 11994 阅读 · 0 评论 -
语音转文字
前言:之前实现了图片转文字,现在我们实现了语音转文字,解放了双手码字的时代。虽然普通话不是那么普通,程序不是那么完善,部分语音无法完美识别,因为没有给钱,引用的是某免费api语音接口,没有讯飞专业调用,但实现了html语音开发,移动端语音开发重大突破,网页也可以实现人工智能。艳辉网,你最爱上的网站工具介绍:录音转文字软件,会议录音转文字,访谈录音转文字,培训录音转文字,授课录音转文字识...原创 2018-12-20 11:11:35 · 4663 阅读 · 0 评论 -
移动端网页录音上传,服务端智能语音识别
移动端网页录音上传,服务端智能语音识别最近,看了创业时代的魔镜,想法突如起来,能不能手机发送一条语音,语音上传到后台,自动识别语音的信息,转化为文字,将文字分析,然后回复用户艳学网的资源。我们的资源以源码为主,一起编集艳学情缘。我们不仅分享源码 http://47.98.237.162/index ,还分享高清的无码 http://47.98.237.162/movie/index 。陆续,我...原创 2018-11-08 12:54:29 · 2689 阅读 · 0 评论 -
一起艳学dubbo
一起艳学dubbo想学习分布式,就从dubbo学起,不要问为什么,因为阿里曾经开源并使用过dubbo。学dubbo,也要从zookeeper学起,动物园的世界你要了解,食物链有金字塔,就有攻击者和被攻击者,也有消费者和提供者。我就是提供服务给上帝消费的。理解概念后,就要学习如何使用。1、开启zookeeper由于测试,都用同一台windows7,双击zkServer.cmd启动,dos命令...原创 2018-10-07 21:19:56 · 366 阅读 · 0 评论 -
大数据预测房价趋势
大数据预测房价趋势数据挖掘步骤大概分为以下:1、数据采集2、数据清洗3、数据分析4、显示数据还是按这4个步骤, 第一,我们用爬虫采集某网的数据,得到房价20180811.txt文件,这里是以广州城市为例。数据中有些有地铁,有些无地铁的房子,为了采集,清洗方便,这里我们选择用有地铁的房子进行统计。 数据清洗得出房价20180812.txt文件,数据以–分割,看起来更加简洁,但不可观。...原创 2018-08-18 14:01:05 · 4004 阅读 · 0 评论 -
大数据实时采集系统
实时采集,我们采用flume框架,我们同样在windows上安装flume。 1、到Apache的Flume官网(http://flume.apache.org/download.html)下载apache-flume-1.8.0-bin.tar.gz 2、解压到目录,例如D:\software\apache-flume-1.8.0-bin 3、新建FLUME_HOME变量,填写flum...原创 2018-08-07 10:41:28 · 4597 阅读 · 0 评论 -
一起艳学大数据Hadoop(二)——eclipse配置hadoop
前言:为什么好久没写博客呢?就是弄hadoop弄到心碎。因此大概每周发布一篇大数据博客。上周我试了Eclipse4.5.1配置hadoop1.2.1失败,配置hadoop2.5.1失败,windows7安装hadoop2.6.0失败。种种原因,心累,但不放弃,终于尝试99次失败后,终于在最后一次成功,不是给你灌鸡汤,而是告诉我们要找到好资料,好老师。网上虽然很多文章,但是按照他们一步一步也有可能失败原创 2017-09-23 09:38:55 · 445 阅读 · 0 评论 -
一起艳学大数据Hadoop(三)——java操作HDFS的增删改查
具体过程描述如下:1、Client调用DistributedFileSystem对象的create方法,创建一个文件输出流(FSDataOutputStream)对象 2、通过DistributedFileSystem对象与Hadoop集群的NameNode进行一次RPC远程调用,在HDFS的Namespace中创建一个文件条目(Entry),该条目没有任何的Block 3、通过FSDataOu转载 2017-10-03 16:03:01 · 567 阅读 · 0 评论 -
大数据分析:某日头条搜索java的分词报告
前言:之前做了好多爬虫例子,就是为了获取大量数据,然后,就没有然后了,说好的数据挖掘了?思路: 使用爬虫爬取某日头条所有关于java的文章资料文本信息 对文本进行分词处理,计算词频 使echarts作可视化报告结果: 144篇头条文章文本 共计65405个字符 排名前20的高频词汇: 1—:java_3804 2—:开发_1808 3—:我们_1317 4—:学习_1076 5原创 2017-10-22 12:27:32 · 742 阅读 · 0 评论 -
java开发腾讯AI,共探人工智能
前言:跟你们说说羊群效应嘛,听过的切勿吐槽,就是1000只羊在一边吃草,这时来了一只狗,汪汪几声,1000只养竟然跑到另一边。对,是竟然,1000只羊打不过一只狗?每只羊舔一下那只狗都能舔死那只狗辣,试想1000个女轮着舔一个男的,当然羊不是这样想的,羊会想我上去舔,其他的羊却没有上去,这就是1对1,这不是舔咯,是濑,濑是服务咯。。。现在,是AI时代,大数据时代。你还不开发AI,你就后悔了。当然,有原创 2017-12-12 14:11:37 · 9419 阅读 · 1 评论 -
大数据挖掘:手把手教你分析头条小程序文章数据
大数据挖掘:手把手教你分析头条小程序文章数据本次分析思路:爬虫爬取数据词频统计 绘制文字云从 49517 字的文章中提取以下关键字: 从上图的结果中发现,经分割后的词中有许多无意义的词,如“可以”,“使用”,“这个”,“我们”等,这些词是需要剔除的。 从上图中显示,一些无意义的词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。 通过java使用工具echarts绘原创 2017-11-25 12:02:57 · 6679 阅读 · 0 评论 -
从零搭建ELK实时日志分析平台(ElasticSearch, Logstash, Kibana)
前言:先说说搭建这个平台的环境吧 系统:centos7 jdk:1.8 ElasticSearch:5.5.2 Logstash:5.3.2 Kibana:5.2.2何谓从零,就是新建一个centos7开始 1、获取ip addr 这里我假设是192.168.12.128 2、关闭防火墙:systemctl stop firewalld.service 3、安装与配置jdk1.8原创 2017-12-15 15:30:35 · 770 阅读 · 0 评论 -
ElasticSearch安装踩过的坑
ElasticSearch安装踩过的坑前言ElasticSearch是一个分布式、可扩展、实时的搜索与数据分析引擎,它能从项目一开始就赋予你的数据以搜索、分析和探索的能力。通过本课程的学习,你可以了解到,ElasticSearch在互联网行业里的火热程度,也可以了解到它的实际应用场景。本课程会通过理论与实践相结合的方式,带领你一步一步走进ElasticSearch的世界,使你轻原创 2018-01-17 09:35:30 · 499 阅读 · 0 评论 -
ElasticSearch-head插件安装及使用
ElasticSearch-head插件安装及使用前言ElasticSearch-head安装1、安装nodejstar -xJf node-v8.9.3-linux-x64.tar.xz 然后我们再配置环境变量: vim /etc/profile在最后加上:export NODE_HOME=/home/elastic/node-v8.9.3-lin原创 2018-01-18 21:04:51 · 1171 阅读 · 0 评论 -
elasticsearch查询篇
elasticsearch查询篇前言elasticsearch查询篇1、准备数据POST http://192.168.1.111:9200/film/_mapping/dongzuo/{ “properties”: { “title”: { “type”: “text” },原创 2018-01-28 19:25:43 · 460 阅读 · 0 评论 -
一起艳学天气微服务(一)
一起艳学天气微服务(一)天气系统,就是api获取地方的天气,把天气显示到前端。一个系统是庞大的,但可以拆分多个单一的小服务。改造成这样的微服务可以让系统更具可维护性,可扩展性。那如何实现一个简单的微服务呢?首先我们先找个天气的免费的api服务,https://wx.jdcloud.com/market/datas/26/11065要找的不是阿里云,不是百度云,是京东云。这里提供了两...原创 2018-07-26 11:42:16 · 458 阅读 · 0 评论 -
一起艳学天气微服务(一)
一起艳学天气微服务(一)天气系统,就是api获取地方的天气,把天气显示到前端。一个系统是庞大的,但可以拆分多个单一的小服务。改造成这样的微服务可以让系统更具可维护性,可扩展性。那如何实现一个简单的微服务呢?首先我们先找个天气的免费的api服务,https://wx.jdcloud.com/market/datas/26/11065要找的不是阿里云,不是百度云,是京东云。这里提供了两...原创 2018-07-26 12:42:18 · 233 阅读 · 0 评论 -
一起艳学天气微服务(二)——微服务的注册与发现
一起艳学天气微服务(二)——微服务的注册与发现注册与发现,就像你穿衣服那样,你穿上一件衣服,别人就能看到你穿了一件衣服,当然你不喜欢穿,也可以脱得光光的,这体现可插拔式。Eureka就是一款服务注册和发现的产品。这个产品提供了完整的服务注册和发现机制,用起来相对比较走心。 同时和SpringCloud无缝集成,Eureka启动后,既充当了Eureka客户端角色,又是服务的提供者,体现产品...原创 2018-07-27 10:38:47 · 271 阅读 · 0 评论 -
一起艳学天气微服务(三)——微服务的消费
一起艳学天气微服务(三)——微服务的消费服务还能被使用,被消费。目前消费者框架主要有HttpClient,Ribbon,Feign等。现在我们先使用Feign演示给大家看。1、启动Fegin在application类上加@EnableFeignClients2、定义Fegin客户端@FeignClient("yh-weather1-eureka-client")...原创 2018-07-27 11:22:31 · 337 阅读 · 0 评论 -
windows安装Hbase
一、下载安装包官网:http://hbase.apache.org/下载地址见文末安装路径E:\software\hbase-1.3.1二、修改配置文件1、修改:E:\software\hbase-1.3.1\conf\hbase-env.cmd(linux环境是修改hbase-env.sh)(1)指定java_home,去掉前面的@rem ,把值改成自己的jdk路径...原创 2018-08-09 11:55:13 · 1861 阅读 · 0 评论 -
windows安装Hive
1、环境变量设置 HIVE_HOME D:\DesignSoftware\hive\apache-hive-2.1.0-bin PATH %HIVE_HOME%\bin;2、hive-site.xml配置&lt;configuration&gt; &lt;!-- WARNING!!! This file is provided for documentation pu...原创 2018-08-09 12:04:30 · 2841 阅读 · 0 评论 -
大数据流量分析系统
大数据流量分析系统前几天去了移动营业厅办了个卡,就不说某动的内幕了,说说上行流量和下行流量统计手机号码的总流量。这次我们利用大数据来分析,大数据也有三大框架,Hadoop是离线计算框架,Storm是实时计算框架,Spark是内存计算框架。这里我们使用Hadoop,因为已经有流量的数据,只需统计出来就可以了。首先我们没有移动的真实数据,只能伪造数据。 之前做了个excel生成数据的系统...原创 2018-08-05 10:37:47 · 2707 阅读 · 0 评论 -
一起艳学天气微服务(四)——API网关
一起艳学天气微服务(四)——API网关 api网关,用一套单一且统一的API入口点,可用于黑白名单,日志,协议适配,身份认证,计流限流,路由等。 目前常见API网关常用有nginx,zuul,Kong。今天,就说说zuul,将以/city/* 城市api和 /weather/* 天气api为例,基于Zuul来实现API网关。项目已经成功运行了,但遇到的坑,难以忘记。。。启动Zuul...原创 2018-07-27 18:40:16 · 336 阅读 · 0 评论 -
一起艳学大数据Hadoop(一)——安装hadoop
前言:接下来带大家学习大数据的生态圈,以及数据挖掘。学习Hadoop,Hive,HBase,Pig,Spark,Oozie等大数据技术,带你装逼带你飞。首先安装一下hadoop 下载hadoopwget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gzmv hadoop-1.2.原创 2017-09-13 22:17:38 · 446 阅读 · 0 评论