穆桥-CSDN博客

原创基于共词分析的中国近代史实体关系图构建（毕业设计:图数据渲染）

中国近代史实体关系图构建

2022-09-01 22:00:54 418

原创基于共词分析的中国近代史实体关系图构建（毕业设计:数据处理）

毕业设计：实体识别、三元组抽取、共词分析

2022-09-01 15:18:11 1197

原创爬虫工具（tkinter+scrapy+pyinstaller）

content需求介绍分析实现uI中的线程控制scrapy.pyui脚本中运行scrapypyinstaller 打包需求介绍输入：关键字文件，每一行数据为一爬取单元。若一行存在多个and关系的关键字，则用|隔开处理：爬取访问6个网站的推送，获取推送内容的标题，发布时间，来源，正文第一段（不是图片或者图例）输出：输出到csv文件ui：窗口小程序，能实时地跟踪爬虫进度运...

2021-12-12 10:33:28 13233

content要求分析实现细节单引号和双引号html 和 htmlElement对象之间的转换eval null 无法转换的问题编码错误要求获取第七史诗wiki站中每个小项目中的标题，段落文字或表格内容，以及数据源的url。保留排版分析文字内容:直接请求详情页url后解析获得表格内容：该站动态生成的表格内容数据来源有两处。一是html网页（script标签），二是通过ajax加载（post请求）；后者为难点，需要从详情页构造参数payloads,并且请求到表格数据内容后获取所有表格的链接（可以直接

2021-12-11 19:54:18 1084

原创股市专辑播放列表

要求：爬取网页内所有播放列表今日股市（王斌）老曹说股老丁说股import scrapyfrom scrapy import Request, signalsimport pandas as pdfrom album.items import AlbumItemclass ExampleSpider(scrapy.Spider): name = 'example' def __init__(self, **kwargs): super(ExampleS

2021-12-03 18:42:41 208

原创洋码头商品数据获取

方法参考scrapy异步获取获取列表页面class YmatouSpider(scrapy.Spider): name = 'ymatou' start_urls = [r'https://www.ymatou.com/products?k=奶粉'] def parse(self, response): res=response.text #self.logger.info(res) res=Selector(text=res)

2021-11-26 17:39:50 309

原创京东商品数据数据爬取

content要求commoditymysql要求以饮料这一品种为例，获取10个页面的商品信息。具体包括详情页中的商品名称、价格、商品介绍（包括图片）、规格包装数据库字段要求commodityimport requestsfrom scrapy import Selectorimport requestsimport jsonimport reimport mysqlimport timeimport threading#import datetimedef get_pr

2021-11-24 17:45:53 4907

原创多线程、异步爬取数据(优化篇)

获取食品数据，包括名字、价格、商品介绍、和规格包装、图片链接等；以奶粉为例获取的逻辑：从京东列表页面获取每个奶粉品牌的商品编号sku，从详情页的network面板里分析出图片链接/价格/规格包装、商品介绍、名字对应的响应链接（有三个响应数据）难点找到图片链接对应的请求，每张图片对应一个链接，因此建议找到和商品编号相关的请求（不要更具每个图片的链接地址）；价格也是动态生成的，可以在postman取消一些勾选化简请求内容，如下图...

2021-11-12 15:20:24 1042

原创动态网页内容的爬取

文章目录问题解决过程1.查找json请求2.分析发布时间和标题3.分析正文页的json请求4.获取正文数据答案相关问题补充# 动态网页当用户请求的是一个动态网页时，服务器要做更多的工作才能把用户请求的信息发送回去，服务器一般按照以下步骤进行工作：1、服务器端接受请求。2、Web服务器从服务器硬盘指定的位置或内存中读取动态网页文件。3、执行网页文件的程序代码，将含有程序代码的动态网页转化为标准的静态页面（如HTML）。3、Web服务器将生成的静态页面代码发送给请求浏览器。动态网页对应的网页实

2021-11-09 16:15:23 6130

原创 cpp高亮格式文件转网页格式

高亮的源代码需要编辑器环境，但是分享源代码在手机上常用记事本和浏览器等应用软件，不会去用专业的编程的环境。但是用这些普通应用打开代码的可读性不高。highlight.js插件渲染（2h）参考网页文档介绍在官网上下载相关包。最后下载的文档里面没有hightlights.pack.js文件包。之后找了完整的源代码添加链接描述（插件和示例文件）使用插件时可以结合浏览器控制台调试。最后确实可以展现出高亮页面，但是同目录下必须有插件，而且无法导出渲染后的静态网页（保存之后还是渲染之前的代码）实用工具(

2021-11-07 19:00:15 253

原创爬取电影标题、评论、评分（21-11-4）

功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests 请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过 Python 的 lxml 库，利用 XPath 进行 HTML 的解析。scrapy 封装了lxml也可以导入scrapy任务1代码实现"""@Description:@Usa.

2021-11-05 12:11:45 731

原创 python-分类模型

# coding: utf-8#决策树分类import numpy as npimport pandas as pdfilename='data\\BankDebt.csv'# data=read_csv(filename)# data[data['拥有房产']=='是',['拥有房产']]=1data = pd.read_csv(filename, index_col = 0, header = None)data.loc[data[1] == 'Yes',1 ] = 1data..

2021-11-02 09:33:30 1066

原创 python实现回归模型预测

使用广告收益数据，建立广告投入和销量的关系模型，并按照下个月的投入量预测销量# coding: utf-8import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfilename='data\\advertising.csv'data=pd.read_csv(filename,index_col=0)print(data.iloc[0:5,:])#1.观察变量的相关性，选择合适的列作为模型的特征量dat.

2021-11-02 08:57:31 7983 2

原创 2021-11-02可视化

# coding: utf-8import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf=pd.DataFrame([1.47, 1.62, 1.78, 1.94, 2.38, 2.60],index=[2012,2013,2014,2015,2016,2017])df.plot(title='income chart',linestyle='dashed',marker='s',color='black',gri.

2021-11-02 00:08:33 446

原创青团背书-基于语义相似度评分的计算1

content目标定位严格匹配目标定位目标在于评分而非语义相似度的计算，考虑政治新闻和史料题对命名实体要求严格，而且主观题评分的给分点也分布在这些实体上，如时间、任务、地点…… 但是要实现更广泛的任务，如地理、生物学科，它们对命名实体（）的要求没有那么严格，此时就应该考虑文本的语义。总之，该问题还是归结为普通的主观题打分问题。具体下一文补充严格匹配# -*- coding: utf-8 -*-"""Created on Fri Oct 29 21:27:06 2021@author: DE

2021-10-29 21:49:24 312

原创神经网络和深度学习初识

content神经网络感知器（神经元）多层前馈神经网络神经网络感知器（神经元）感知器模型由输入节点、输出节点和权重连接线组成单个感知机构成一个简单的决策模型，解决一个线性可分问题：O=G(I1Wi1+I2Wi2+I3*Wi3-t);G 是激活函数常用的有，阶跃函数，sigmoid,tanh;t是偏置项多层前馈神经网络对于大量的线性不可分（不可以用一个吸纳行分类器实现分类，直线或者平面）问题，需考虑使用多层神经元；根据神经元所在位置不同可以分为输入层、输出层、隐藏层最后输出层的输出节

2021-10-29 11:53:47 212

原创聚类分析：kmeans实现对鸢尾花的分类

content聚类算法的原理聚类kmeans 算法原理核心代码模型评估ARI 系数（有分类标签的数据集）轮廓系数基础补充取数索引设置确定某一列的取值种数聚类算法的原理聚类聚类指的是没有目标函数情况下对一组数据分类，根据聚类结果确定最后的分类种数。SVM支持向量机分类，决策树分类等学习算法都是根据目标值学习模型。所以这里需要多次迭代学习，可以理解为用历史数据作为模型训练的目标函数kmeans 算法原理假定一个划分的簇数n，任选k个样本作为簇中心根据样本与簇的距离相似度划分样本重新计算簇中心不断

2021-10-28 11:42:06 3912

原创 211015青团背书

找计算语义相似度的模型，用千言数据集计算语义相似度的判断，明确写了最后用词向量做一个二分类，不能满足打分功能。（但还是跑了一个下午的模型）用gensim 的TF-IDF计算语义相似度。模型简单，但计算的语义相似准确度不高DSSM 基于深度学习的文本匹配，在Github上没有刨到核实简单的模型B站上学习，认识到文本匹配，文本蕴含，文本相似度是一个概念，但模型很难理解。...

2021-10-15 23:04:21 226

原创 Teacher-信息技术基础知识

数字计算机发展历程电子管数字计算机晶体管数字计算机集成电路数字计算机超大规模集成电路数字计算机第一台电子数字计算机ENIAC计算机组成硬件系统软件系统：包括操作系统、语言处理软件（编译程序、汇编程序、解释程序）操作系统：管理计算机的硬件、软件、文件资源；并为用户或者软件提供一个良好的服务接口根据对作业的处理方式可以分为：批处理系统、分时系统、实时系统按硬件结构分：网络操作系统、分布式操作系统、多媒体操作系统操作系统中实时系统对响应速度有更高的要求，分时系统对交互性有更高的要求计算

2021-10-14 18:41:28 172 1

原创 NLP-P自然语言处理的计算模型（笔记）

人工智能两大标志任务：计算机国际象棋和机器翻译自然语言自动处理归结为语言处理建模的问题自然语言系统是一个不适定问题（例子）对南京市长江大桥基于语义分词南京市|长江大桥南京|市长|江大桥面对不适定问题，如何构建呢解决思路：约束解集，限制输出为稳定解分析模型：理性主义用有限的规则+有限的词汇 =有文法的句子问题：规则不全面，问题大到一定规模则难通过可拓展性的考验概率统计模型：经验主义，数据驱动问题：建模没有考虑到语句次之间存在大量的依存关系远距离上下文语义依存关系。..

2021-10-13 21:19:38 417

原创 chapter1:计算机网络概述

网络的定义实现远程资源共享进一步实现信息处理的系统功能通信子网：实现传输、交换、控制、存储资源子网：实现硬件、软件、数据资源的共享性能指标带宽：最高数据率b/s吞吐量：全网最低的计算机网络体系结构osi模型（物联网苏慧适用）和tcp/ip模型（四层）区别：在网络层：前者提供面向连接和无连接的服务；后者只提供面向无连接的服务。在传输层：前者提供面向连接的服务；后者提供面向无连接或无连接的传输服务。共同点：均实现异构网络互联，不同厂家数据通信网络传输过程用户–自然语言~通信数据（应用层

2021-10-13 09:57:26 2400 1

原创 21-算法分解因数

总时间限制: 1000ms 内存限制: 65536kB描述给出一个正整数a，要求分解成若干个正整数的乘积，即a = a1 * a2 * a3 * … * an，并且1 < a1 <= a2 <= a3 <= … <= an，问这样的分解的种数有多少。注意到a = a也是一种分解。输入第1行是测试数据的组数n，后面跟着n行输入。每组测试数据占1行，包括一个正整数a (1 < a < 32768)输出n行，每行输出对应一个输入。输出应是一个正整数，指明满足要

2021-10-12 10:42:50 130

原创 21算法课堂-递归

递归可以解决的问题有：可分解的问题（汉诺塔）多重循环或循环层数不确定的问题（n皇后问题）递归定义的问题（逆波兰表达式）汉诺塔问题#include<iostream>using namespace std;void f(char a,char b,char c,int n){ if(n==0) return ; f(a,c,b,n-1); cout<<a<<"-->"<<c<<endl; f(b,a,c,n-1);}

2021-10-11 21:45:17 120 1

原创 21算法-生理周期

人生来就有三个生理周期，分别为体力周期、感情周期和智力周期，它们的周期长度分别为23天、28天和33天。每一个周期中有一天是高峰。在高峰这天，人会在相应的方面表现出色。例如，在智力周期的高峰，人会思维敏捷，注意力容易高度集中。因为三个周期的长度不同，所以通常三个周期的高峰不会落在同一天。对于每个人，想知道何时三个高峰落在同一天。对于每个周期，会给出从当前年份的第一天开始，到出现高峰的天数（不一定是第一次高峰出现的时间）。给定一个从当年第一天开始的天数，你的任务是输出从给定时间开始（不包括给定时间），下一次三

2021-10-11 21:11:37 356 1

原创 21算法-显示器

你的一个朋友买了一台电脑。他以前只用过计算器，因为电脑的显示器上显示的数字的样子和计算器是不一样，所以当他使用电脑的时候会比较郁闷。为了帮助他，你决定写一个程序把在电脑上的数字显示得像计算器上一样。input输入包括若干行，每行表示一个要显示的数。每行有两个整数s和n (1 <= s <= 10, 0 <= n <= 99999999)，这里n是要显示的数，s是要显示的数的尺寸。如果某行输入包括两个0，表示输入结束。这行不需要处理。output显示的方式是：用s个’-‘表示

2021-10-04 17:25:21 200

原创 21算法排列

题目描述：大家知道，给出正整数n，则1到n这n个数可以构成n！种排列，把这些排列按照从小到大的顺序（字典顺序）列出，如n=3时，列出1 2 3，1 3 2，2 1 3，2 3 1，3 1 2，3 2 1六个排列。任务描述：给出某个排列，求出这个排列的下k个排列，如果遇到最后一个排列，则下1排列为第1个排列，即排列1 2 3…n。比如：n = 3，k=2 给出排列2 3 1，则它的下1个排列为3 1 2，下2个排列为3 2 1，因此答案为3 2 1。input第一行是一个正整数m，表示测试数据的个

2021-10-04 12:09:58 142

原创 21算法-约瑟夫问题

约瑟夫问题：n个人围成一圈，初始编号从1~n排列，从约定编号为x的人开始报数，数到第m个人出圈，接着又从1开始报数，报到第m个数的人又退出圈，以此类推，最后圈内只剩下一个人，这个人就是赢家，求出赢家的编号。#include<iostream>#include<stdio.h>using namespace std;void init(int n[],int len){ for(int i=0;i<len;i++){ n[i]=1; } return ;}i

2021-10-03 17:58:01 183

原创 21算法-装箱问题

一个工厂制造的产品形状都是长方体，它们的高度都是h，长和宽都相等，一共有六个型号，他们的长宽分别为11, 22, 33, 44, 55, 66。这些产品通常使用一个 66h 的长方体包裹包装然后邮寄给客户。因为邮费很贵，所以工厂要想方设法的减小每个订单运送时的包裹数量。他们很需要有一个好的程序帮他们解决这个问题从而节省费用。现在这个程序由你来设计。问题分析：高度限定为h，箱子不能垒起来，为了充分利用箱子可以确定如下算法（1）先将长宽大于33的产品放入箱子（2）比较剩下的22的空位和长宽为22的产品数

2021-10-03 15:29:32 1770

C指针（C语言中文网学习）

Github flow协作开发微信小程序.docx

空空如也