- 博客(2837)
- 资源 (20)
- 问答 (1)
- 收藏
- 关注
原创 stanford-chinese-corenlp-yyyy-MM-dd-models.jar not exists解决
手上两个压缩包:stanford-corenlp-4.1.0-models-chinese.jar stanford-corenlp-latest.zip完整报错如下:Traceback (most recent call last): File "stanford_visualize.py", line 4, in <module> with StanfordCoreNLP(r'stanford-corenlp-4.1.0', lang='zh') as nl...
2020-08-30 16:59:15 2640 2
原创 flink的datastream输出没有结果
代码如下:import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;public class Map { public static void main(S
2020-08-30 15:45:09 1784
原创 xxxx must either be declared abstract or implement abstract method ‘map(T)‘ in ‘MapFunction‘
完整报错如下:Class 'Anonymous class derived from MapFunction' must either be declared abstract or implement abstract method 'map(T)' in 'MapFunction'解决方案:env.generateSequence(1,10).map(new MapFunction<Long, Object>()鼠标挪动到<Long, Object>的右边,int
2020-08-29 22:07:41 1445
原创 flink的datastream中的closewith与反馈环(feed stream)的意思
官网例子DataStream<Long> someIntegers = env.generateSequence(0, 1000);IterativeStream<Long> iteration = someIntegers.iterate();DataStream<Long> minusOne = iteration.map(new MapFunction<Long, Long>() { @Override public Long ma
2020-08-29 20:16:57 468
原创 NoClassDefFoundError: org/apache/flink/streaming/api/datastream/DataStream一例解决
很惊讶居然会犯这种低级错误。。。。明明intellij里面都resolve了,没有波浪线提示,为啥一运行就:NoClassDefFoundError: org/apache/flink/streaming/api/datastream/DataStream解决方案:pom.xml中写了两处streaming依赖,删除其中一处即可<dependency> <groupId>org.apache.flink</groupId> <a
2020-08-29 14:00:15 1300
原创 基于神经网络模型的文本语义通顺度计算研究-全文复现(还没弄完)
该硕士学位论文分为两个部分:①基于依存句法分析的语义通顺度计算方法②基于神经网络模型的语义通顺度计算方法评价指标得分/计算方式备注在N-gram模型下进行智能批改场景下的语义通顺度计算,第一种评价指标是通过划分语义通顺度等级,然后计算作答中的N元组,得出与标答的相似度,并给整个句子打分。句Score=∑Count(N−gram)−cScore=\sum Count(N-gram)-cScore=∑Count(N−gram)−c其中Count为N元组在标答中出现的次数,c为作答
2020-08-28 22:59:00 2020 4
原创 make sure the Graphviz executables are on your systems‘ PATH
完整报错如下:Traceback (most recent call last): File "/home/appleyuchi/anaconda3/envs/Python3.6/lib/python3.6/site-packages/graphviz/backend.py", line 164, in run proc = subprocess.Popen(cmd, startupinfo=get_startupinfo(), **kwargs) File "/home/appleyu...
2020-08-28 22:05:55 1569
原创 中文-自然语言处理-开源工具-流行度调查+句法依存树可视化调研
NLTKLTPOpenNLPICTCLASANTLRDDParserTHULACGensimspaCyStanford CoreNLPIKAnalyzerNLPIR哈工大LTP平台东北大学NIUParserjiebaFudanNLPhttps://blog.csdn.net/qushaming/article/details/92585334
2020-08-28 19:50:56 645
原创 argsort获得排序后的下标
import numpy as npx=np.array([1,4,3,-1,6,9])y=x.argsort()array([3, 0, 2, 1, 4, 5])意思就是说,从小到大排序后得到的列表y中,各个元素在原来的x列表中的下标
2020-08-28 19:18:37 320
原创 AttributeError: ‘pyltp.Postagger‘ object has no attribute ‘load‘
报错代码如下:## 代码片段import osimport jiebafrom pyltp import Postagger, Parsersent = '2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通信领域做出的贡献。'jieba.add_word('Polar码')jieba.add_word('5G极化码')jieba.add_word('埃尔达尔')jieba.add_word('之父')words ...
2020-08-28 19:01:20 1913
原创 pyltp在ubuntu20.04下面的安装办法
环境组件 版本 Ubuntu 20.04 Python 3.6.10 安装思路需要先安装ltp,然后再安装pyltp,缺一不可。ltp安装办法:git clonehttps://gitee.com/fastsource/ltpcd ltppip install 安装下面的依赖包依赖包 版本 torch 1.6.0 torchtext 0.5.0 transformers 3.0.2 pygtrie...
2020-08-28 15:48:00 799
原创 ngram_range的作用与N-gram的Python应用(还差一个ngram聚类没完成)
目前N-gram最为有用的就是自然语言的自动分类功能。基于n-gram的自动分类方法有两大类,一类是人工干预的分类(Classification),又称分类;一类是无人工干预的分类(Clustering),又称聚类。N-Gram距离定义为:∣GN(s)+GN(t)∣−2X∣GN(s)∩GN(t)∣|G_N(s)+G_N(t)|-2X|G_N(s)∩G_N(t)|∣GN(s)+GN(t)∣−2X∣GN(s)∩GN(t)∣(NNN的意思是在s中每两个字符进行分割,分割的结果作为最小单位)扯
2020-08-27 23:26:31 3564
原创 Java根据正则生成随机字符串
调研了下,目前有两种开源工具:①import com.mifmif.common.regex.Generex; at com.mifmif.common.regex.Generex.prepareRandom(Generex.java:366) at com.mifmif.common.regex.Generex.prepareRandom(Generex.java:366) at com.mifmif.common.regex.Generex.prepareRandom(Ge...
2020-08-26 19:49:16 3373
原创 No execution.target specified in your configuration file.
完整报错如下:Exception in thread "main" java.lang.NullPointerException: No execution.target specified in your configuration file. at org.apache.flink.util.Preconditions.checkNotNull(Preconditions.java:75) at org.apache.flink.streaming.api.environ...
2020-08-25 20:32:54 1905
转载 中文分词工具jieba中的词性类型(转载)
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 an .
2020-08-25 18:21:57 1431
原创 unreported exception java.lang.Exception; must be caught or declared to be thrown
import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.streaming.api.windowing.time...
2020-08-25 14:27:02 4967
转载 数据仓库设计方案(转载)
数据仓库设计方案一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因:清晰数据结构 每一个数据分层都有它的作用域,这样在使用表的时候能更方便的定位和理解。 数据血缘追踪 由于最终给业务呈现的是一个能直接使用的业务表,但是表的数据来源有很多,如果有一张来源表出问题了,我们希
2020-08-24 20:44:29 399
原创 /home/appleyuchi主目录迁移到新磁盘中
我们的目标:/media/appleyuchi/5489a557-03fb-4ebd-8884-c9b2e5c65b48/目标是把/home/appleyuchi弄到sda6上面去,因为sda6比较空闲首先注销当前的用户,然后重新登录进入root界面下面的操作无视在哪个磁盘分区,直接操作即可。①格式化fdisk /dev/sdaPartition number (1,2,5-7, default 7): 6②mkfs.ext4 /dev/sda6然后我们...
2020-08-24 17:30:31 188
原创 我所经历的字节跳动面试
面谈时间2020-8-23,面试时间下午5:30~6:20,牛客网视频面谈投了Python数据挖掘,然后上来让面Java后端。字节跳动的招聘体系已经和华为一样混乱了。猎头的回答是猜测可能是觉得你数据挖掘审核不通过,所以给你转Java后端了。我满脸懵逼,kaggle银牌和各种python前后端全栈项目还不够么。猎头说不用考leetcode题,但是其实是需要考的。最后猎头和字节的HR全部联系不上了。既然你们都联系不上了那我就写出来吧。字节跳动面试分为四个部分:...
2020-08-24 08:18:17 1065
原创 CoreMail/pku的邮箱如何禁止某个后缀的所有邮箱
例如我想禁止所有qq.com结尾的邮箱,那么可以直接输入@qq.com我们在下方会看到:然后所有qq邮箱的邮件我们就都收不到了。
2020-08-23 14:28:59 1132
原创 阿里对大年龄清退的定义
最近看了个抖音,是这么说的:阿里的话,业务上有突出贡献才能从P7升级到P835岁不到P8,容易被清退。所以互联网还真不是人待的地方。
2020-08-21 16:59:40 578 1
原创 到底什么是hash partition?
最近在flink的dataset api中看到了hash-partition的概念。下面这个解释[1]比较清晰:Techopedia explainsHash PartitioningHash partitioning is a method to separate out information in a randomized way rather than putting the data in the form of groups. This partitioning system..
2020-08-20 10:48:51 852
转载 Java中的Iterable与Iterator详解
在Java中,我们可以对List集合进行如下几种方式的遍历:List<Integer> list = new ArrayList<>();list.add(5);list.add(23);list.add(42);for (int i = 0; i < list.size(); i++) { System.out.print(list.get(i) + ",");}Iterator it = list.iterator();while (it.ha
2020-08-20 10:17:26 367 1
原创 这几年人工智能和大数据的真实就业规律
hortonworks和cloudera在两年前合并了,如果满地都是钱,肯定不愿意合并。有这么几个原因:①小公司搞大数据不如excel来张报表②大公司看年龄③中型公司处于自己都没摸索明白和跟风中。④一线城市的一些it公司没有一线城市的人,找地皮便宜的地方开公司,薪水都不行,还不如应届硕士。所以之前嚷嚷的一大堆java想要转向大数据的美梦大概是要泡汤了。。。。...
2020-08-19 08:56:49 335
原创 芯片的反向流程是怎么样的?
①芯片拿到手后,弄个烧杯以及一个加热底盘。烧杯里面放入发烟硝酸,然后开始加热,直到芯片外面的黑色部分被煮掉。放置于酸槽中,酸槽里面如果有液体,千万记住那个是HF,并不是自来水。②得到①中的硅片后,在显微镜下面观察硅片,此时可以看到各种晶体管的结构,如果领导认为晶体管的结构和现有工艺库的相近,那么可以把该芯片交给芯片解析公司,例如上海芯索芯片分析技术有限公司这种,一般一个五千多晶体管的powerIC解析费用是几千。③根据[1]的流程进行反向提取,也可以直接交给芯愿景公司进行反向提取。注
2020-08-18 17:26:23 1706
原创 flink代码出现no instance(s) of type variable(s) T0, T1, T2 exist
肇事代码是:DataSet<Tuple3<Integer,Double,String>> in = env.readCsvFile("file://"+rootPath+"/"+"projection.csv").types(Integer.class, Double.class, String.class);intellij提示如下:Incompatible types. Required DataSet<Tuple3<Integer, Double,
2020-08-18 14:53:51 1715
原创 it招聘的一些门道与招聘数据分析(持续更新)
经常有知乎帖子忽悠观众,说用爬虫爬取某招聘网站的数据,然后说某某岗位现在平均月薪是多少。于是我做了个测试,我很少进行一个公司多个岗位投递的。我们可以看到这么个数据:87/309,也就是说,只有28%的公司岗位是真实在招聘员工,剩下72%的岗位都是不招人的。什么意思呢?你每投递三个岗位,就有两个岗位是不招人的,也就是说连你是男是女都不知道,你的简历就被扔进垃圾桶了。----------------------------------------------------------.
2020-08-18 11:08:15 786
原创 spark加盐(salting)操作
首先研究下,spark里面有没有salting这个说法呢?百度上没有,但是谷歌上有,所以我取了这么个博客标题。两阶段聚合(局部聚合+全局聚合)方案适用场景:对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时,比较适用这种方案。方案实现思路:这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1)
2020-08-17 16:10:36 2235
转载 cannot resolve symbol spark
明明觉得自己设置好了,但是依然报错:cannot resolve symbol spark检查以下几个方面:①File->Settings->plugins->scala②FIle->Project Structure->Modules->把当前的工程删了,重新导入③FIle->Project Structure->Libraries->导入$SCALA_HOME的具体路径作为Scala的SDK④FIle->Proje.
2020-08-16 22:21:48 2103
原创 intellij设置scala的sdk
File->Project Structure->Libraries然后点击+号,把路径指向/home/appleyuchi/bigdata/scala-2.11.8如下:
2020-08-16 17:57:37 335
原创 can‘t resolve symbol xxx
本来不想记录这么基础的问题,肯定是没定义呗。如下图:所以两种情况会导致这种提示:①没有定义②定义了两次或者更多次
2020-08-16 14:07:49 692
原创 check your cluster UI to ensure that workers are registered and have sufficient resources
完整报错如下:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources----------------------------------------------------------------------------------------
2020-08-15 20:23:00 1788
原创 intellij出现Error assembling JAR: invalid entry size
双击右侧的mvn clean然后再双击mvn package即可
2020-08-15 20:16:20 2840
原创 Python+Scala+Java三种SparkContext初始化代码
-------------------------------------------------Python---------------------------------------------------from pyspark import SparkContextfrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark import SparkConf, SparkContextim
2020-08-14 16:40:33 1120
原创 ubuntu下面pycharm设置pyspark的配置
总共3步组件 版本 Ubuntu 20.04 Pycharm 2018.3 选择下方右侧的conda,然后点击+安装py4j配置下面的变量:③据说需要添加py4j-some-version.zip和pyspark.zip的路径我是直接整个$SPARK_HOME/python文件夹都添加了然后运行下面代码可以看到顺利地输出hellofrom pyspark import SparkContextprint("hello")...
2020-08-14 13:33:58 996
ngrok-stable-linux-amd64.zip
2019-11-18
VBoxGuestAdditions_5.2.18.iso
2019-04-27
pearson证明卡方检验的原文-1900年
2018-12-07
用于ubuntu16.04下安装mongodb时缺少的库文件
2018-08-08
浙大版《概率论与数理统计》(第四版)第十一章实验数据、实验步骤与实验结果
2018-05-17
virtualbox-5.1_5.1.22-115126~Ubuntu~xenial_amd64.deb
2017-05-21
Visual Assist X 10.6.1823 破解版
2012-02-05
MSP仿真器(支持FET430PIF、FET430UIF、MSP430BSL对MSP430芯片进行编程)
2011-03-28
《半导体集成电路课》朱正涌(第二版)课后习题答案仿真(第四章)
2010-06-18
无warning无error,但不知为何没有输出的代码,求指点~
2015-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人