自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 JS代码指纹库构建

判断赋值语句的左node,若果节点名不在tempmap里(也就是不是当前函数的形参、函数体先定义的变量(先定义后操作)),temp加入一组键值对(都是当前名),等后面扫描identifier的时候就不会发生替换。2.修改 idea/bin目录下 idea.properties 修改idea.cycle.buffer.size=10240 console全部输出。编写index.js代码 后,将在index.js目录下 npm -i espree。3一个文件一个map,极端情况 100万 s函数->x0,

2023-04-13 10:14:57 246

原创 Dependencycheck开源项目运行以及逻辑提取

antv-g6构建依赖树

2023-02-27 19:33:03 176

原创 山东大学2018级项目实训2021-7-29

语义泛化:接口介绍:查找关键词近义词函数keyword_search()提供了根据已经建立好的索引文件中找出近义词的功能。keyword_search(text:str,index_path,json_path)输入text:查找的关键字keywordindex_path:build.py生成的索引文件的路径json_path:build.py生成的文件的路径将build.py生成的tc_index_build.json和tc_index_build.index索引文件分别读入内存输出:

2021-07-30 16:02:50 90

原创 山东大学2018级项目实训2021-7-27

山东大学2018级项目实训2021-7-24:时间:2021年7月26日-7月27日项目题目:基于关键词的语义泛化系统::1.工作内容:由于annoy库存在,当查找的关键词不在语料库中,会报错的情况。当关键词不在语料库中,调用爬虫功能,实现近义词查找。改成了面向对象的形式,然后800次查不到的话就会通过爬虫去一个网站爬取。以下是代码怕片段截图:测试用例截图输出结果截图...

2021-07-27 19:37:43 66

原创 山东大学2018级项目实训2021-7-25

山东大学2018级项目实训2021-7-24:时间:2021年7月23日-7月24日项目题目:基于关键词的语义泛化系统::学习内容:由于使用annoy库,当查询的关键词不在语料库中时,会报错。优化方法选择,当查询关键词不在语料库中,使用网络爬虫的技术,查询结果。这两天先对之前学习的网络爬虫技术进行了回顾。什么是网络爬虫 网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。优先

2021-07-27 19:26:22 85

原创 2021-07-25

1,A10932scanf,gets getchar3vector

2021-07-26 19:06:17 98

原创 考场内部成绩排序,总成绩排序

A1025做的不对#include #include using namespace std;const int maxn=100;//最多几个考场struct student {char id[15];//记录考号int cr;//记录考场号int score;//记录成绩int l_r;//记录考场内排名}stu[30000];bool cmp(student a, student b){if (a.score != b.score) return a.score > b

2021-07-24 16:29:31 125

原创 pat1006,1011,1002,1065,1046,1042

PTA甲级算法笔记:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、CSDN 技术博

2021-07-24 14:36:52 77

原创 山东大学2018级项目实训2021-7-22

山东大学2018级项目实训2021-7-22:时间:2021年7月19日-7月20日项目题目:基于关键词的语义泛化系统::1.具体工作:由于想要提高模型算法的精度,就不可避免地要使用机器学习的方法。而我的组员们都已经学习了相关的知识,这两天我便独自学习机器学习中有关泛化方面的知识。1- 过拟合的风险机器学习的目标是对从真实概率分布(已隐藏)中抽取的新数据做出良好预测。过拟合模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕。模型只能从训练数据集中取样,无法查看整体情况。如果

2021-07-23 10:45:53 83

原创 山东大学2018级项目实训2021-7-20

山东大学2018级项目实训2021-7-20:时间:2021年7月19日-7月20日项目题目:基于关键词的语义泛化系统::学习内容:1.对jieba分库的一些学习,最终实现对TF-IDF关键词的提取高效文件读取读取指定目录下的所有文本文件,使用结巴分词器进行分词。本文的IDF提取基于THUCNews(清华新闻语料库)的大约80万篇文本。#!/usr/bin/python# -*- coding: utf-8 -*-import osimport mathimport reimpor

2021-07-20 09:17:37 69

原创 山东大学2018级项目实训2021-7-17

山东大学2018级项目实训2021-7-17:时间:2021年7月17日-7月18日项目题目:基于关键词的语义泛化系统:1.具体工作文本矩阵化我理解的文本矩阵化,即将文本进行“词向量化”。这里简述常见的语言表示模型(词嵌入、句表示、篇章表示)。词向量类型:1)一个词一列向量的表示方法有Hash算法和word2vec。hash算法将词打散成(01010101)的数值,word2vec则同时打散定义成了向量。word2vec考虑了上下语义,doc2vec还考虑了上下语句顺序,用在段落中较好。 .

2021-07-20 09:06:10 69

原创 山东大学2018级项目实训2021-7-15

山东大学2018级项目实训2021-7-15:时间:2021年7月15日-7月16日项目题目:基于关键词的语义泛化系统:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识1.具体工作内容:根据之前对腾讯800万语料库的学习,我们是将自然语言分为了词典文件和向量文件进行保存。以下是对自然语言处理的代码片段(不包含过滤和分段式存储)#!/usr/bin/env python3#coding:utf-8__author__ = 'xmxoxo<xmxoxo@qq.com&g

2021-07-16 10:22:35 93

原创 山东大学2018级项目实训2021-7-12

山东大学2018级项目实训2021-7-12:时间:2021年7月12日-7月14日项目题目:基于关键词的语义泛化系统1.具体工作寻找另一种实现方法:要实现对关键词的近义词查找,首先要对自然语言进行处理,对关键词进行提取。于是,这两天我的主要工作就是学习提取关键词,并将其处理1.1提取关键词摘自:https://blog.csdn.net/wk19951125/article/details/88952404由于第一组的工作是对关键词进行提取,所以只用对关键词提取有一定的了解认识即可,以下是

2021-07-16 10:12:06 144

原创 山东大学2018级项目实训2021-7-11

山东大学2018级项目实训2021-7-9:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、CSDN 技术博客 3 篇3、 学习的 vlog 视频 1 个.

2021-07-14 09:54:52 69

原创 山东大学2018级项目实训2021-7-9

山东大学2018级项目实训2021-7-9时间:2021年7月8日-7月9日项目题目:基于关键词的语义泛化系统1.具体工作编写代码,基于annoy模块实现搜索关键词同义词的功能import jsonimport numpy as npfrom collections import OrderedDictfrom annoy import AnnoyIndexfrom build import build,getKeyword,getVectorsdef main(): with

2021-07-09 09:32:14 79

原创 山东大学2018级项目实训2021-7-5

山东大学2018级项目实训2021-7-5时间:2021年7月5日-7月7日项目题目:基于关键词的语义泛化系统1.具体工作1.1读取并查找关键词同义词有两种方法,第一个使用gensim库模块读取词向量,并找到相似词,占用内存比较大,速度也慢,最好是16g以上的内存和高主频的cpu,但是由于内存不够,只能作罢。第二个是用annoy模块1.2学习annoy模块annoy API说明AnnoyIndex(f,metric)创建一个索引对象,用以读写和保存vector,f为vertor的dimens

2021-07-09 08:45:03 83

原创 山东大学2018级项目实训2021-7-3

山东大学2018级项目实训2021-7-3时间:2021年7月3日-7月4日项目题目:基于关键词的语义泛化系统1.具体工作1.通过增加过滤条件实现,降低使用内存过滤函数具体代码段如下:最终输出结果是只含有两个词的词典文件,与其对应的向量文件# 过滤def wordfilter (txt): ''' 以下过滤: * 纯数字 * 带英文标点符号,且长度大于1的 标点: [,;&:] * 重复3个以上 例如:好好好, 天天天, 的的的 * 纯英文 *

2021-07-04 15:45:25 75

原创 山东大学2018级项目实训 2021 7-1

这里写自定义目录标题山东大学2018级项目实训 2021 7-11.组内分工功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入山东大学2018级项目实训 2021 7-1时间:2021年7月1日-7月2日项目题目:基于关键词的语

2021-07-02 18:28:51 107 2

原创 山东大学2018级项目实训2021-06-29

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-06-29 22:04:51 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除