自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (3)
  • 收藏
  • 关注

原创 Scrapy爬取豆瓣电影top250数据并保存mysql/json/csv

Scrapy爬取豆瓣电影top250数据并保存为不同格式帮一个大一的小朋友做作业,看了一下Scrapy,这里也记录一下吧,有需要的可以参考一下。Scrapy爬取豆瓣电影top250的代码网上有很多,这里借用了

2021-06-29 15:54:34 5065

原创 记录Pyinstaller打包文件执行错误ModuleNotFoundError: No module named ‘cmath‘解决方案

问题描述在使用Pyinstaller打包python脚本后,可执行文件报错ModuleNotFoundError: No module named ‘cmath‘,但是我并没有使用cmath,检查后发现应该是pandas 1.2版本以后默认隐式导入了cmath(此处有说明链接),而Pyinstaller打包时没有检查到脚本中需要执行cmath,所以没有打包进可执行文件中。解决方案类似上述pandas或其他库包含导致的错误,可以尝试更改相应库的版本修改打包后的.spec配置文件(如:修改方式)如果

2021-06-25 13:37:31 843

原创 Spring学习(六)—— SpringJDBC与MyBatis

SpringJDBCSpringJDBC是Spring对JDBC的封装,可以避免使用JDBC时的一些重复代码,如获取连接、关闭连接等操作。1.导入maven依赖包spring-webmvc,spring-jdbc, ojdbc,dbcp,junit2.添加Spring配置文件3.配置JdbcTemplate4.调用JdbcTemplate的方法访问数据库通常将JdbcTemplate注入到DAO中,方便使用。...

2020-08-22 11:29:10 1251

原创 Spring学习(五)—— 实用小工具

1. Spring拦截器Spring拦截器可以对DispatcherServlet的请求进行拦截,并对Controller的处理结果进行修改。可以用于拦截未登陆用户访问页面,或者在处理器抛出异常后可以用于处理异常。(1) 实现一个拦截器类import org.springframework.web.servlet.HandlerInterceptor;import org.springframework.web.servlet.ModelAndView;import javax.servlet.

2020-08-20 14:06:26 205

原创 Spring学习(四)——前端交互

转发获取页面请求参数a.b.c.向前端页面传值a.b.c.d.注意:转发方式优先使用request方式,request生命周期短,session占用时间久。重定向请求方式优先使用session。重定向返回值是String返回值是ModelAndView...

2020-08-15 11:04:14 277

原创 Spring学习(三)—— IDEA搭建maven+Spring MVC

Spring MVC是一个用来简化基于MVC架构的web应用开发框架。五大组件1 DispatcherServlet接受请求后,依据HandlerMapping的配置调用相应的Controller来进行处理。(类似控制器)2 HandlerMapping包含了请求路径与模型的对应关系。3 Controller负责处理业务逻辑。(类似Model)4 ModelAndView封装了处理结果。处理结果除数据外,还有视图名。5 ViewResolver视图解析器五大组件的关系:(1) Di

2020-08-13 20:38:02 220

原创 Spring学习(二)—— 注解简化配置文件

使用注解简化配置文件1.组件扫描Spring容器会扫描该包及其子包的所有类,并将有特定注解(通用注解:@Component、@Named;持久化层组件注解:@Repostory;业务层组件注解@Service;控制层组件注解:@Controller)的类纳入容器进行管理,相当于在配置文件中配置了 一个bean元素。以下提供一个简单的示例步骤:(1)在类前添加特定的组件及bean的idimport org.springframework.stereotype.Component;@Comp

2020-08-12 15:11:40 161

原创 Spring学习(一)——容器注入

(一)容器IOC(Inversion of controll 控制反转):对象之间的依赖关系由容器来控制。DI(Dependency injection 依赖注入):容器通过调用对象提供的set方法或者构造器来建立依赖关系。IOC是目标,DI是实现手段。set方式注入(较常用)被注入类提供set方法,配置元素以下给出一个简单的set方式注入依赖关系的例子:1、配置文件<bean id="b1" class="com.niuchen.spring.ioc.B"/> <!--

2020-08-11 16:38:47 561

原创 三层架构初识

三层架构:首先来说,三层架构与MVC的目标一致:都是为了解耦和、提高代码复用。MVC是一种设计模式,而三层架构是一种软件架构。三层架构分为:表现层(UI)(web层)、业务逻辑层(BLL)(service层)、数据访问层(DAL)(dao层) ,实体类库(Model)实体类库(Model),在Java中,往往将其称为Entity实体类。数据库中用于存放数据,而我们通常选择会用一个专门的类来抽象出数据表的结构,类的属性就一对一的对应这表的属性。一般来说,Model实体类库层需要被DAL层,

2020-08-07 11:47:51 327

原创 Python数据可视化——Seaborn笔记

记录本人在Kaggle数据可视化课程学习过程中,Seaborn模块的常用方法及部分效果图笔记

2020-05-08 11:18:05 379

原创 Python+selenium+Xpath爬取百度学术文章摘要

由于研究需要,想要用Glove训练一些自己的领域语料,可是没有现成的语料,所以想着找一些相关文献的摘要作为语料,但总不能自己去找吧~带着万分的不情愿,硬着头皮爬一下百度学术吧(观察发现这个最好爬,对不住了)…1. selenium简介...

2019-11-22 17:44:56 2240 7

原创 携程2019.10.14机器学习算法岗——自然语言处理方向线上笔试

选择题随机森林和XGBoost的区别数据库系统的特点过拟合解决方法(Dropout,剪枝,正则化,早停)编程题1.字符串编辑距离对于两个字符串,利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:1.删除一个字符2.插入一个字符3.修改一个字符示例:输入:携程欢迎您欢迎你程里人输出:62.螺旋数组第一行输入m(数组行数)和n(数组列数),空格隔...

2019-10-14 14:04:20 453

原创 面经——常用排序算法Python实现

记录一下面试中基本必考的排序算法的实现方式,慢慢积累经验~import randomimport timedef maopao(ls): ''' 冒泡排序 算法思想: 从第一个和第二个开始比较,如果第一个比第二个大,则交换位置,然后比较第二个和第三个,逐渐往后 经过第一轮后最大的元素已经排在最后,所以重复上述操作的话第二大的则会排在倒数第二的位置。 ...

2019-10-03 19:42:29 166

原创 携程2019.9.4机器学习算法岗——自然语言处理方向线上笔试

文章目录1. 选择题2. 编程题2.1 列车时刻2.22.3 字符串匹配这次笔试分为选择和编程两部分,选择题20道40分,编程题三道60分。1. 选择题不记得具体题目了,大致回忆一下考到的知识点:2. 编程题2.1 列车时刻题目:有a, b, c, d四个目的地,输入规定好的列车时刻表,输入顺序为出发顺序,相同目的地的列车归为一组,要求尽可能多的分组,输出对应的各组中的车数,输出顺序...

2019-09-05 21:14:24 3438

原创 Python小练习——双指针问题

由于Python中没有指针的概念,这里我们只是用数组模拟指针的方式。1. 有序数组合并给出两个从小到大的有序数组,将两个数组合并成一个新的从小到大的有序数组ls1 = list(map(int,input(‘输入第一个数组’).split()))ls2 = list(map(int,input(‘输入第二个数组’).split()))index = 0ans = ls1.copy()...

2019-08-26 09:54:45 864

原创 NER文本数据集标注爬坑

文章目录一. 数据标注方式1. BIO标注2. BIOES二. NER数据标注工具推荐1. Brat2. YEDDA更多标注工具注意写在前面:本篇博客记录自己研究在老板的乱七八糟的指挥下踏进了NLP的坑,并且在一段时间调研后发现老板定的方向没有公开数据集(呵呵呵呵~),然后自己苦逼的开始边学技术边搞数据,真是苦不堪言…一. 数据标注方式目前,常用的序列标注方式有BIO和BIOES,两者形式上...

2019-06-19 21:02:47 11973 29

原创 知识图谱学习资料

1 知识图谱是什么知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。2 推荐资料为什么需要知识图谱?什么是知识图谱?——KG的前世今生https://zhuanlan.zhihu.com/p/31726910什么是知识图谱?https://zhuanlan.zhihu....

2019-04-28 17:29:23 1672

原创 自然语言处理学习资料

1 NLP是什么自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。NLP包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。2 课程推荐CS224n 斯坦福深度自然语言处理课17版中文字幕:https://www.bilibil...

2019-04-28 17:27:09 399 1

原创 自然语言处理11——RNN与LSTM

文章目录1. 循环神经网络RNN(Recurrent Neural Network)1.1 循环神经网络的提出背景1.2 循环神经网络的结构1.3. 双向RNN1.4 RNN存在的问题2. LSTM与GRU2.1 LSTM2.2 GRU3. Text-RNN3.1 Text-RNN的原理3.2 利用Text-RNN模型来进行文本分类1. 循环神经网络RNN(Recurrent Neural ...

2019-04-27 09:51:54 2772

原创 自然语言处理10——卷积神经网络基础

文章目录1. 卷积运算1.1 卷积运算的定义1.2 卷积运算的动机1.3 一维卷积运算1.4 二维卷积运算2. 反卷积3. 池化运算3.1 池化运算的定义3.2 池化运算的种类3.3 池化运算的动机4. Text-CNN的原理5. 利用Text-CNN模型来进行文本分类参考1. 卷积运算1.1 卷积运算的定义卷积运算通常用星号表示:s(t)=(x∗w)(t)s(t)=(x∗w)(t)s(t)...

2019-04-25 20:11:24 731

原创 自然语言处理9——word2vec

文章目录1. 文本表示:从one-hot到word2vec1.1 one-hot1.2 word2vec1.2.1 CBOW1.2.2 Skip-Gram2. word2vec实践参考1. 文本表示:从one-hot到word2vec文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文...

2019-04-22 10:17:54 1020

原创 自然语言处理8——神经网络基础

前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化;数据集增强;噪声添加;early stop;Drop...

2019-04-21 19:41:32 794

原创 自然语言处理7——LDA

文章目录1. PLSA、共轭先验分布;LDA主题模型原理1.1 PLSA1.2 共轭先验分布1.2.1 共轭先验分布的参数确定1.2.2 常见的共轭先验分布1.3 LDA主题模型原理2. LDA应用场景3. LDA优缺点4. LDA 在sklearn中的参数学习5. 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类参考1. PLSA、共轭先验分布;LDA主题模型原理1.1 P...

2019-04-18 13:47:49 2514 4

原创 自然语言处理6——SVM及其sklearn实现

文章目录1. SVM(Support Vector Machines)原理2. SVM应用场景3. SVM优缺点4. SVM sklearn 参数学习5. 利用SVM模型结合 Tf-idf 算法进行文本分类参考1. SVM(Support Vector Machines)原理SVM(support vector machine)简单的说是一个分类器,并且是二分类器。对一个分类问题,如果数据是...

2019-04-16 14:45:15 1429

原创 自然语言处理5——朴素贝叶斯及其sklearn实现

朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类SVM的原理利用SVM模型进行文本分类pLSA、共轭先验分布;LDA主题模型原理使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类1. 朴素贝叶斯的原理参考资料朴素贝叶斯1:sklearn:朴素贝叶斯(naïve beyes) - 专注计算机体系结构 - CSDN博客 (https://blog.csdn.net/u...

2019-04-15 21:15:50 788 1

原创 自然语言处理4——TF-IDF及特征提取

TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。文章目录1. TF-IDF原理2. 文本矩阵化1. TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频—...

2019-04-13 11:26:55 3047

原创 自然语言处理3——文本数据处理

基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)2.1 语言模型中unigram、bigram、trigram的概念;2.2 unigram、bigram频率统计;(可以使用Python中的collections.Counter模...

2019-04-11 16:32:15 1454

原创 自然语言处理2——THUCNews中文数据集与IMDB英文数据集

1. THUCNews中文数据集THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。1.1 数据下载完整版链接http://thuctc.t...

2019-04-08 16:46:16 3324

原创 自然语言处理1——Anaconda与Tensorflow

自然语言处理——任务1Anaconda导航界面: Anaconda的包管理器,conda允许你在conda环境中安装任何语言包,如果我们只是关注python包安装,conda和pip也是为不同用户和不同目标定制的。如果你想在一个已有系统快速管理python包,那你应该选择pip,因为conda应该在conda环境中使用,而pip鼓励在任何环境中使用 。而如果,你想要让许多依赖库一起很好地工作(...

2019-04-05 10:03:18 408

原创 吴恩达Deeplearning第五课第一周记录

仅作为一个算法结构的记录,留作参考RNNRNN cellRNN forwardRNN backward cellLSTM cellLSTM

2019-04-02 12:46:17 408

原创 GraphViz安装配置

首先确保以下三个库已经安装好pip install pydot;pip install pydot-ng;pip install graphviz然后,GraphViz官网下载安装包或者压缩包https://graphviz.gitlab.io/_pages/Download/Download_windows.html,安装后,找到bin位置,将地址添加到Path环境变量中即可。可...

2019-04-02 12:44:59 377

原创 标注工具Brat安装(本地)

由于研究方向需要对文本进行标注,对象为大量期刊文献,手动标注肯定不太现实,于是找到了Brat标注工具,虽然这玩意儿好像挺久没更新了,只支持Python2,但是只用来标注还是没问题吧。事先声明:Brat有服务器运行和本地运行两种方式,官方推荐服务器运行,但我折腾了半天,不知道什么情况,该配置的都配置了,包括apache和CGI都配置完,但是结果是下面这个样子: ...

2019-03-27 21:18:41 6236 19

原创 U盘故障:文件或目录损坏且无法读取

记录一下,因为没有正常弹出U盘,直接拔掉了,再插上就不能用了,显示U盘文件或目录损坏且无法读取。百度查到,终端cmd输入chkdsk 盘符:/f,真的解决了,而且文件都完好。...

2019-03-14 20:46:57 2107 1

翻译 LogisticRegression参数

api 参数 意义 备注 LogisticRegression parameters   penalty 用于指定惩罚项中使用的规范 str类型,可选参数为l1和l2,默认为l2 dual ...

2018-09-07 11:00:53 1363

原创 Linux下 登录mysql报错 ERROR 2002 (HY000): Can't connect to local MySQL server through socket....

查阅了无数资料,知道自己的mysql.sock文件丢失了,想了一下,之前修改my.cnf文件时,由于粗心把windows的路径复制了进去,头疼啊......看了一天网上的解决办法,挨个试了一遍,最后发现其实只要一步就解决了:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/usr/local/v...

2018-08-28 15:09:02 1700

chromedriver

将其放在Python的安装目录,用以解决selenium无法启动Chrome浏览器的问题

2017-10-17

geckodriver-64bbit

对于python中使用selenium调用火狐浏览器,解压后放置在python根目录下即可使用

2017-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除