- 博客(56)
- 收藏
- 关注
原创 Linux常用命令与常见操作:重启服务器
36这台服务器比较特殊,需要先执行下面这条语句,再执行上面2条语句,才能重启成功。语句后,稍等片刻,再重复执行netstat语句可以验证服务器是否被停掉。有36、37两台服务器,37直接执行上面2条语句即可重启成功。上文第一条语句可以用来停掉应用服务器,与Tomcat重启的逻辑差不多。
2023-01-09 14:58:42 772
原创 Tomcat经验2
资产系统与财务系统对接,开发经常让我在数据库中执行数据库更新语句,并重启Tomcat,将log文件发给他,他能够根据log文件判断,数究竟有没有传对。在这个过程中会出现一个问题:部署在同一台Web服务器上的、资产系统的应用会在重启Tomcat的过程中被挤掉。虽然资产系统部署了两台服务器,分别放在36、37上,一台36被挤掉,不影响系统使用,但还是使用下面总结的方法,防止36服务器上的资产系统应用被挤掉好一些,不然配置负载的好处与意义就无法体现了。
2022-12-03 19:34:24 771
原创 SQL学习路径
完全是视频内容的文字版照搬,看到这篇文章,觉得内容不错的,可以点击链接,到B站去关注这位博主,获取更多有用信息。本人非零基础,但是整理的这条路径适合零基础的朋友们。目的是方便自己复习回顾。
2022-11-27 23:24:06 302
原创 等保和分保
实际工作中,站在我的角度上,我需要开展的工作包括:与负责评测的厂商沟通,协调评测开展时间,跟进评测进展情况,在规定期限内拿到评测结果,根据评测结果完善系统配置。截止目前,留在我脑海里有关评测的内容就是一份Excel文件,密密麻麻记录着数百项评测结果,涉及方面较广,包括硬件、软件等多个方面(实际上我没认真看)。参与的软件交付项目中存在等保和分保的评测,评测不通过将影响软件上线与用户使用,算是整个软件实施交付过程中比较重要、不可或缺的环节。
2022-11-25 22:12:03 668
原创 爬虫入门基础项目
在入手这个爬虫项目之前,基础知识的储备包括:Python基础知识网页信息呈现方式(HTML/JSON)数据获得方式(POST/GET)Requests,唯一的一个非转基因的Python HTTP库获取我们需要的内容(正则表达式/Beautiful Soup 4.4.0文档)《精通正则表达式(第三版)【美】弗瑞德》是本好书,第三章开始就有点傻眼了,还需要在未来写正则表达式时反复翻阅。上...
2020-04-23 17:28:01 379
原创 PYTHON爬虫自学笔记(1)——基础
#!/usr/bin/env python3# -*- coding: utf-8 -*-#第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;#第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。# Python爬虫需要的基础知识"""数据类型与变量"""...
2020-04-13 22:32:10 248
原创 实体识别模型演变与相关论文汇总
模型演变与相关论文汇总说明论文关键信息提取:作者想研究什么(introduction);采用了什么方法或方案(Results and Discussion);最后得出了什么结论。(最后再看实验方案。)基础《统计自然语言处理》命名实体识别部分基于规则⬇大规模语料库的统计方法条件随机场相关论文:基于条件随机场的命名实体识别研究_郭家清基于条件随机场的中文命名实体识别_向晓雯基...
2020-04-07 21:17:19 327
原创 社保领域知识图谱构建练手小实验(3)——社保领域概念提取算法
emmmm,直接照着文章中的实验部分做的。首先通过词性搭配规则获得候选概念jieba分词与词性标注对每种组成结构的概念进行统计(n-gram算法)
2020-04-06 10:06:21 312
原创 社保领域知识图谱构建练手小实验(2)——社保领域概念提取算法的训练语料准备
社保领域概念提取框架分词和词性标注是后续实体识别、关系抽取等步骤的关键基础。论文复现仍然主要依据《社保领域知识图谱构建及应用研究_李佳恒》。“社保领域概念大多数为一些由基本概念的组合而来的长词,而这些词一般是不会出现在分词工具的词典中,这种词被称作未登录词。解决这种问题有两种主流方法,一种是基于有监督机器学习的领域概念提取算法。这种方法需要人工对数据进行标注,利用隐马尔科夫和条件随机场等模型...
2020-04-02 22:25:49 639
原创 社保领域知识图谱构建练手小实验(1)——数据预处理
练手数据使用先前做文献计量学相关实验时为CiteSpace所下载的结构化的数据,原始数据为纯文本。(原始数据可以通过下面的链接自取)链接:https://pan.baidu.com/s/1IzP5VLAlz3h82kD0BZXU5Q提取码:ywbx复制这段内容后打开百度网盘手机App,操作更方便哦数据预处理1、用Python编程提取出其中的摘要部分。"""抽取出download_...
2020-03-24 22:09:17 825
原创 设置Jupyter notebook默认工作目录
直接在Anaconda的配置文件jupyter_notebook_config.json中进行修改代码一{ "NotebookApp": { "nbserver_extensions": { "jupyterlab": true }, "notebook_dir":"D:\practice\python_codes\jupyter",...
2019-12-30 10:52:32 437
原创 谁说菜鸟不会数据分析入门篇(一)
数据分析类别描述性数据分析对比分析法、平均分析法、交叉分析法、分组分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法探索性数据分析验证性数据分析以上两种分析方法有相关分析法、因子分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、对应分析法、时间序列等数据分析在企业日常经营分析中的三大作用现状分析(日报、周报、月报)原因分析(专题分析)预测分...
2019-12-11 19:29:39 238
原创 tableau public入门与项目练手
参考链接官网视频教程数据来源与介绍数据来源美国婴儿中最流行的名字1910-2012年间,每年每个州最流行的男性和女性名字,由美国社会安全局发布。数据集格式为csv数据字段包括State, Gender, Year, Top Name, Occurences(个人理解为出现的次数)数据准备...
2019-12-11 15:09:36 2906
原创 《干净的数据——数据清洗入门与实践》(六)
清洗PDF文件中的数据PDF文件本身是二进制的,内嵌字体、图片等内容,清洗时需要特别对待。技术一使用pdfminer解析pdf文件在这里插入代码片
2019-12-10 13:39:37 254
原创 《干净的数据——数据清洗入门与实践》(五)
收集并采集来自网络的数据HTML页面结构两类心智/结构化模型行分割模型将HTML元素当成分隔符,结构化标签将内容分隔成不同的部分树形结构模型文本页面可以看成一个由HTML元素/标签组成的树形结构,其中每个元素/标签都与页面上的其他一些标签相关。每个标签都是一个节点,整棵树是由页面中的所有节点组成的。三种方法...
2019-12-10 10:56:09 204
原创 《干净的数据——数据清洗入门与实践》(四)
讲通用语言——数据转换数据转换时可以作为公共标准的数据类型:JSON、CSV利用工具的快速转换针对少量或者中量数据电子表格->CSV:“另存为”。注意,一个EXCEL文件中的多个表格要分别保存。电子表格->JSON:方法不太使用使用phpMyadmin从SQL语句中生成CSV、JSON或者直接使用MySQL命令行select concat (firstName, " ",...
2019-12-09 16:04:39 236
原创 《干净的数据——数据清洗入门与实践》(三)
数据清洗之电子表格和文本编辑器电子表格将数据组织成列和行(1)把大量数据粘贴到Excel中时,软件首先尝试查找分隔符号(如逗号或者制表符),然后根据分隔符号把数据拆分为不同的列。(2)数据不存在分隔符号使用EXCEL的文本分列向导,将数据分成可以识别的几大块,之后再重新组织数据并按照需求剔除不需要的字符。具体步骤:文本分类向导->选择固定宽度->双击绘制在描述字段上的分割...
2019-12-08 20:24:11 279
原创 《干净的数据——数据清洗入门与实践》(一)
为什么需要清洗数据错进,错出数据科学过程注意非线性会根据具体情况反复执行这些步骤(迭代过程)并不是每一个项目都会包含这些步骤清洗工作包含了分析方法所能决定的各种任务(交换文件的格式、字符编码的修改、数据提取的细节)(1)问题陈述。识别出你要解决的问题是什么(2)数据收集与存储。确定数据来源、存放位置、格式。(3)数据清洗。确定数据是否需要修改、删除,应该怎样调整才适用于接下...
2019-12-07 11:19:22 561
原创 文本挖掘理论(三)
阅读中会使用的数据:deck.csv数据百度云链接提取码:6qsycards.csv数据百度云链接提取码:fnqd读书与代码实现片段整理笔记R语言入门与实践&R语言基础提取码:o2sq...
2019-12-04 18:21:26 561
原创 文本挖掘理论(二)
# -*- coding: utf-8 -*-'''02 feature_engineering===分词与词性标注=====分词基本方法==基于词典的方法 最大匹配法:利用索引加速,正向/逆向【汉语更有效】/双向最大匹配,最佳匹配(词典中的单词按照他们在文本种出现频次的大小)、联想-回溯法 最大概率法:(1)一个待切分的汉字串可能包含多种分词结果(2)将其中概率最大的那个作为该...
2019-12-03 23:27:55 425
原创 文本挖掘理论(一)
# -*- coding: utf-8 -*-'''01 introduction语言难点:文本不是给计算机阅读的复杂的语言结构(语法、语义、语用)歧义(更困难的)多语言KDD算法难点海量(大规模的数据集)高维时效性(随时间变化的数据和知识)噪音数据挖掘出的模式的可理解性'''...
2019-12-03 23:25:45 594
原创 leetcode_database简单题第一遍做后知识补充(一)
下面总结来自于《SQL21天自学通》SQL代码提速问题全表扫描数据库服务为执行某一个 SQL 语句需要对表中的每一个记录进行检查时就会发生全表扫描。全表扫描通常是因为在WHERE子句中使用了索引中没有的字段时发生。使用全表扫描的的恰当时机:你选择了一个表中的大多数行的时候,你在对表中的每一行记录进行更新的时候,表非常小的时候最好在大型表中使用索引看一下SQL语句中的WHERE子句我...
2019-12-01 20:33:50 164
原创 面试针对性准备(二)
EXCELOLAP分析统计学应用thinkcellPPT/EXCEL插件thinkcell教程Python爬虫CRF和BiLSTM
2019-11-25 21:24:38 284 1
原创 面试数据分析最重要的30+问题(二)
5 什么是A/B TEST?它的核心逻辑?业务应用场景?有哪些需要注意的要点?概念核心逻辑业务应用场景注意点灰度就是小流量6 什么是漏斗分析?漏斗分析的核心逻辑?业务应用场景?漏斗分析有哪些需要注意的要点?注意步骤一定是连续的数据敏感性类IPhone X的城市销售量多维分析好玩的问题1能力、通用技能与数据打交道并不枯燥很多分析方法和工具都会有帮助作用2...
2019-11-24 18:22:13 817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人