staryxx-CSDN博客

原创 github远程仓库的建立

添加公钥：1. 在本地Administrator目录下查看是否存在.shh目录，如果有，再看里面是否有id_rsa和id_rsa.pub这两个文件，如果没有则需创建：$ ssh-keygen -t rsa -C "daoke_li@qq.com"然后一路回车，就会自动创建这两个文件，分别是密钥对的私钥和公钥。2. 打开github的右上角的设置，点击右侧导航中的SSH和GPG k...

2019-12-27 18:49:43 197

原创 LambdaMart一些浅薄理解

首先RankNet：是pairwise排序学习算法，利用神经网络进行计算得到文档分数，从而得到文档i在文档j之前的概率，即为文档ij之间的关系（pair），进而得到损失函数，对其进行优化其次LambdaRank：是listwise排序学习算法，是在RankNet基础上进行的优化，由于最基本的pairwise误差计算方式并不能很好地模拟用户对搜索引擎的期望，故考虑到排名靠前的影响越...

2019-04-27 00:23:55 1617

原创关于XGBoost一些浅薄理解

决策树：（分类）灵魂——依靠某种指标进行树的分裂达到分类或回归的目的，总希望是纯度越高越好Eg：ID3算法就用信息增益度量属性选择标准，选择分裂后信息增益最大的属性进行分裂CART，Classification And Regression Tree——分类与回归分析相同点：本质都是特征到结果、标签的映射不同点：分类样本输出是类的形式（离散），回归输出是实数（连续数值型）...

2019-04-26 23:07:46 484

原创与nltk的下载配置问题

下载好了nltk数据包之后写程序出现了远程主机拒绝连接的问题然后提示要<<<import nltk<<<nltk.download('wordnet_ic')我按照提示执行之后还是告诉我远程主机拒绝连接然后仔细看了一下出现的问题上面说Resource'corpora/wordnet_ic' not found 然后我跑到nltk的corp...

2019-03-12 21:29:02 1053 1

转载 jupyter notebook 设置默认目录

之前在网上看过很多设置jupyter notebook默认目录的文章尝试过后发现都没用后来终于找到了一个有用的附上链接：https://www.cnblogs.com/raorao1994/p/8058924.html...

2019-02-27 13:54:06 410

原创 python ：变量和字符串

变量名的命名和使用：1.变量名只能包含字母，数字和下划线，不能包含空格2.不要将python关键字和函数名用作变量名在python中，用引号括起来的内容都是字符串，引号可以是单引号也可以是双引号常用方法：1.修改字符串的大小写name.title() 以首字母大写的方式显示字符串name.upper() 字符串全为大写name.lo...

2018-10-17 09:40:17 226

原创爬取GitHub上的commit信息

经历了Googleplay之后 GitHub就会感觉简单很多由于github每一个commit信息都会跳转页面，为了获取commit的具体信息我的思路是首先翻页获取所有的commit信息的url 将其保存到本地在根据这些commit信息获取所有需要的具体信息过程：从某应用commit界面出发，eg https://github.com/AChep/AcDisplay/...

2018-09-29 22:08:58 3045 2

原创爬取Google Play中app的用户评论（2）

我遇到的下一个困难是如何爬取完整的用户评论如图，很多评论都是折叠起来的要是想直接获取完整的用户评论，最后只能得到空值于是我尝试另外写一个方法来获取完整的评论结果不尽人意然后我看书上的实例有用selector获取网页源代码的方法先获取网页源代码就可以直接获取完整的用户评论了selector = etree.HTML(driver.page_source)use...

2018-09-22 22:45:29 2714 5

原创爬取Google Play中app的用户评论（1）

第一次写爬虫，真的踩了不少的坑坑1：看了爬虫视频后，首先尝试用request库和beautifulsoup来爬取Google Play然后总是报错连接超时，应该是谷歌的反爬虫机制导致的然后我的解决方法是用代理ip，于是成功解决了连接超时的问题（我用了是翻墙的软件，补充：千万别用全局代理模式，详见坑3）第一个坑就这么解决了，花了我几天的时间坑2：解决了连接的问...

2018-09-22 22:21:43 5306 16

翻译爬虫学习笔记4---------scrapy框架

Scrapy框架 Scrapy不是一个简单的函数功能库；而是一个专业的网络爬虫框架Scrapy 足以支持一般商业服务所需的爬虫能力：持续爬取、商业服务、高可靠性 scrapy库的安装:pip install scrapyscrapy -hAvailable commands: bench Run quick benchmark test...

2018-09-12 19:13:58 299

翻译爬虫学习笔记3---------re库，正则表达式

Unit1 正则表达式 Re 正则表达式：regular expression regex RE简洁的表达一组字符串的表达式，（查找，替换，匹配）。表达“特征”（病毒，入侵）使用：编译：将符合正则表达式的字符串'P(Y/YT/YTH)?N' 转换为正则表达式的特征。特征：p = re.compile('P(Y/YT/YTH)?N')语法： ...

2018-09-12 19:12:40 270

翻译爬虫学习笔记2---------BeautifulSoup库

Unit1:Beautiful Soup 一、安装https://www.crummy.com/software/BeautifulSoup/ 管理员权限打开命令行：pip install beautifulsoup4（注意：使用pip install beautifulsoup 会失败）安装测试：演示地址(http://python123.io/...

2018-09-12 19:08:10 232

翻译爬虫学习笔记1---------requests库

Unit 1 : Requests库入门（7 * 13）（1）、安装 pip install requests 测试import requestsr = requests.get("http://www.baidu.com")r.status_code 200r.encoding = 'utf-8'r.text #打印内容 ...

2018-09-12 19:06:54 238

原创 scrapy安装历程

准备安装的时候看到大家都说scrapy很难装网上也有各式各样的教程但是感觉和我的情况都有些出入所以在这里总结一下我的情况首先尝试了一下直接安装scapy pip install scrapy然后出现报错：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ ...

2018-09-11 16:43:14 121

转载信息标记的三种形式

xml以标签的形式<a href=>baidu</a> 标签里面有内容时用一对标签表示<img src= /> 若标签里没有内容则可以用 / 直接代替</> 注释json用键值对的形式“key"："va...

2018-09-10 20:24:34 226

原创 ssm框架搭建顺序

1. 首先在dao里面，以接口形式定义数据库操作方法2.在mapping里面定义对数据库的操作方法，对哪个表进行操作，以及进行什么操作id 为dao中定义的方法名称parameterType 为传入参数的数据类型 eg： string、int等resultType 为返回参数的数据类型 eg：com.ys.model.User3.model中定义类以及基本的属性和方法4.service为业...

2018-05-12 20:03:02 1921 1

转载 css背景图片居中显示

见链接 http://jingyan.baidu.com/article/e4d08ffd6508370fd3f60d52.html?allowHTTP=1

2018-04-14 10:39:19 918

maven框架搭建错误：HTTP Status 500 - Request processing failed; nested exception is org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.exceptions.PersistenceException: type Exce...

2018-04-04 09:45:00 3430

原创 ssm框架搭建遇到的问题

ssm的搭建就不说了网上教程多的是现在就说说ssm搭建过程中遇到的问题其实按照网上的教程一步步搭建就行了刚刚搭建好后pom.xml会有叉叉按网上说的做就搞定问题是之后 java resource有个红叉叉然而目录下并没有什么错误如图报错显示如下这个问题搞了我两天还是在大神的帮助之下才解决了在商务找方法的过程中我知道了这个问题是由于java编译器 maven版本的不对应造成的根据...

2018-03-29 10:45:19 1978

原创 ssm框架组件及介绍

SSM框架是spring MVC ，spring和mybatis框架的整合，是标准的MVC模式，将整个系统划分为view层，controller层，service层，DAO层四层使用spring MVC负责请求的转发和视图管理spring实现业务对象管理mybatis作为数据对象的持久化引擎流程：发送请求到控制层（action/controller）控制层调用服务层（service）的方法来处理事...

2018-03-29 10:34:13 3120

转载 Unicode、UTF－8 和 ISO8859-1到底有什么区别

说明：本文转载于新浪博客，旨在方便知识总结。原文地址：http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面：编码基本知识，java，系统软件，url，工具软件等。在下面的描述中，将以"中文"两个字为例，经查表可以知道其GB2312编码是"d6d0 cec4"，Unicode编码为"4e2d 6587"，UTF编码...

2018-03-27 11:16:13 192

原创端口占用问题总结

根据我这两天的经验我发现端口号问题可以分为两大类：首先是配置Tomcat时产生的端口号问题其次是解决了以上问题后 eclipse中运行程序时启动Tomcat时产生的端口号占用问题下面，我就以这两种情况分别讨论吧1.配置Tomcat时产生的端口号问题网上的教程基本上都是用以解决这种情况下的端口号问题的我也就不详细说了在Tomcat的文件夹中的conf文件夹打开后找到server.x...

2018-03-26 10:39:13 188

原创关于Tomcat猫的问题

首先我先从Apache官网上下载了Tomcat我的jdk是1.8 从网上看到大多数还是用的Tomcat7.0 于是就下载了这个版本具体如图我下载了压缩版的很快就下好了直接把文件夹解压出来就行一开始看到网上有教程说Tomcat7及其以上版本都不用配置环境变量就可以启动于是我就偷懒的直接从浏览器打开localhost:8080 结果发生了404错误然后我才认真的看教程发现我省了好...

2018-03-26 10:14:23 730

staryxx的博客