- 博客(34)
- 收藏
- 关注
原创 Mysql笔记_通过两张表更新其中一个表的字段
update a set a.x = (select b.x from b where a.y=b.y)一个猜想, 大概 不一定 对。
2019-01-14 17:59:21
370
原创 网易云音乐评论爬虫(一)——Fiddler替换本地Js文件
JS加密网页监听responsejs分析Fiddler抓包替换本地core.js文件修改本地js文件网页监听responsejs分析Fiddler抓包替换本地core.js文件修改本地js文件...
2018-10-21 18:50:22
773
3
原创 手工打造multiprocessing多进程分布式爬虫
multiprocessing多进程爬取知乎用户爬取内容截图ControlNode控制节点部分NodeManger——控制调度器MemberManger——知乎用户管理器DataOutput——数据存储器SpiderNode爬虫节点部分SpiderWorker——爬虫调度器Downloader——HTML下载器Parser——HTML解析器爬取内容截图开启控制节点开启爬虫节点...
2018-10-18 21:45:41
609
原创 简单爬取单页Spanishdict
Spanishdict是一个在线的西班牙语翻译网站,因为是西译英,所以比起大多数西译中的翻译靠谱一点。网页排版也很舒服,最初上手爬虫就是因为想把上面一些词汇的翻译爬下来。结果接触下来,发现爬虫真的是一个大坑,填坑填到现在回头看一下最初的这几行代码,真的是没有什么技术含量。放上来作为一个时间节点吧。页面如下代码如下import requestsfrom requests.e...
2018-10-10 22:40:53
1412
原创 Centos7下的scrapy-redis分布式爬取知乎用户
Centos7下的scrapy-redis分布式搭建redis安装相关redis安装scrapy-redis安装redis-manager-desktop安装redis参数详情新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式如何插入一段漂亮的代码片创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表UML 图表FLowchart流程图redis安装相关...
2018-10-09 23:01:56
264
原创 centos7 安装mongodb
centos7下安装最新mongodb‘’‘pythoncurl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.2.tgztar -zxvf mongodb-linux-x86_64-rhel70-4.0.2.tgzmv mongodb-linux-x86_64-rhel70-4.0.2/ /usr/...
2018-10-09 21:59:19
873
原创 爬虫项目——Scrapy爬取Boss直聘
Scrapy添加代理爬取boss直聘,并存储到mongodb项目创建itemsSpiderMiddleware_ip代理Pipeline_mongodb存储最终爬取截图项目创建本项目使用的是Windows系统下的Pycharm平台,Python版本为3.6使用scrapy startproject scrapy_boss创建scrapy项目itemsfrom scrapy import ...
2018-09-19 10:51:23
4378
2
原创 MLiA笔记_pca
# -*-coding:utf-8-*-# 13.1 PCA算法from numpy import *# 使用两个list comprehension来构建矩阵def loadDataSet(fileName, delim = '\t'): fr = open(fileName) stringArr = [line.strip().split(delim) for l...
2018-08-03 19:18:50
166
原创 MLiA笔记_fp-growth算法
#-*-coding:utf-8-*-# 12.1 FP树的类定义# 类中包含用于存放节点名字的变量和1个计数值class treeNode: def __init__(self,nameValue, numOccur, parentNode): self.name = nameValue self.count = numOccur ...
2018-08-03 19:18:03
155
原创 MLiA笔记_apriori算法
# -*-coding:utf-8-*-# 11.1 辅助函数# loadDataSet()函数创建了一个用于测试的简单数据集def loadDstaSet(): return [[2,3,4],[2,3,5],[1,2,3,5],[2,5]]# createC1()函数构建集合C1,C1是大小为1的所有候选项集的集合def createC1(dataSet): # ...
2018-08-03 19:17:05
482
原创 MLiA笔记_kMeans
# -*- coding:utf-8 -*-# 10.1 K-均值聚类支持函数from numpy import *def loadDataSet(fileName): dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split(...
2018-08-03 19:16:16
237
原创 MLiA笔记_树回归
#-*-coding:utf-8-*-from numpy import *# 9.1 CART算法的实现代码# createTree()树构建函数(数据集,其他三个可选参数:建立叶结点的函数、误差计算函数、包含树构建所需其他参数的元组)# 是一个递归函数def loadDataSet(fileName): dataMat = [] fr = open(fileNam...
2018-08-03 19:15:32
197
原创 MLiA笔记_regression
#-*-coding:utf-8-*-# 8.1 标准回归函数和数据导入函数from numpy import *# 用该函数打开一个用tab键分隔的文件文本,默认文件每行的最后一个值是目标值def loadDataSet(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 dataMa...
2018-08-03 19:14:45
220
原创 MLiA笔记_adaBoost
#-*-coding:utf-8-*-from numpy import *def loadSimpData(): datMat = matrix([ [1., 2.1], [2., 1.1], [1.3, 1.], [1., 1.], [2., 1.] ]) classLabels =...
2018-08-03 19:12:39
168
原创 MLiA笔记_svm
#-*-coding:utf-8-*-from numpy import *#6.1 helper funtions for the SMO algorithmdef loadDataSet(fileName): dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines():...
2018-08-03 19:11:39
184
原创 MLiA笔记_Logistic回归
#-*-coding:utf-8-*-from numpy import *# 5.1 logistic回归梯度上升优化算法# 便利函数loadDataSet(),打开文本文件并逐行读取。每行前两值分别是X1和X2,第三个值是数据对应的类别标签。def loadDataSet(): dataMat = []; labelMat = [] fr = open('testS...
2018-08-03 19:10:42
132
原创 MLiA笔记_贝叶斯
#-*-coding:utf-8-*-from numpy import *# 4.1 词表到向量的转换函数# loadDataSet()创建了一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合,。这些留言本文被切分成一系列的词条集合,标点符号从文本中去掉。# loadDataSet()函数返回的第二个变量是一个列别标签的集合,有侮辱性和非侮辱性两类,这些文本的类别由人工...
2018-08-03 19:06:45
225
原创 MLiA笔记_treeplotter
#-*-coding:utf-8-*-# 3.5 使用文本注解绘制树节点import matplotlib.pyplot as plt# 代码定义树节点格式的常量decisionNode = dict(boxstyle = "sawtooth", fc = "0.8")leafNode = dict(boxstyle="round4", fc = "0.8")arrow_args =...
2018-07-31 12:01:31
588
原创 MLIA笔记_决策树
#-*-coding:utf-8-*-from math import logimport operator# 3.1 计算给定数据集的香农熵calcShannonEnt()def calcShannonEnt(dataSet): # 首先计算数据集中实例的总数 numEntries = len(dataSet) # 创建一个数据字典, labelCoun...
2018-07-31 12:00:12
151
原创 MLiA笔记——kNN算法
--coding:utf-8--from numpy import * import operator创建数据集和标签def createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = [‘A’, ‘A’, ‘B’, ‘B’] return g...
2018-07-31 11:58:44
193
原创 Centos7安装python3.7及遇到的问题
一、安装1、安装依赖环境 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel2、安装pip,用pip装wgetyum -y install...
2018-07-31 10:35:37
2255
1
原创 SQL_练习:汇总各个部门当前员工的title类型的分配数目,结果给出部门编号dept_no、dept_name、其当前员工所有的title以及该类型title对应的数目count
CREATE TABLE departments ( dept_no char(4) NOT NULL, dept_name varchar(40) NOT NULL, PRIMARY KEY (dept_no));CREATE TABLE dept_emp ( emp_no int(11) NOT NULL, dept_no char(4) NOT NULL, from_date...
2018-07-31 00:36:29
861
原创 SQL_练习:获取员工其当前的薪水比其manager当前薪水还高的相关信息,获取员工其当前的薪水比其manager当前薪水还高的相关信息
结果第一列给出员工的emp_no, 第二列给出其manager的manager_no, 第三列给出该员工当前的薪水emp_salary, 第四列给该员工对应的manager当前的薪水manager_salaryCREATE TABLE dept_emp ( emp_no int(11) NOT NULL, dept_no char(4) NOT NULL, from_date da...
2018-07-31 00:32:56
1036
1
原创 SQL_练习:获取所有非manager员工当前的薪水情况,给出dept_no、emp_no以及salary ,当前表示to_date='9999-01-01'
CREATE TABLE dept_emp ( emp_no int(11) NOT NULL, dept_no char(4) NOT NULL, from_date date NOT NULL, to_date date NOT NULL, PRIMARY KEY (emp_no,dept_no));CREATE TABLE dept_manager ( dept_no cha...
2018-07-31 00:29:10
885
原创 SQL_练习:对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名,相同salary并列且按照emp_no升序排列
CREATE TABLE salaries ( salary int(11) NOT NULL, from_date date NOT NULL, to_date date NOT NULL, PRIMARY KEY (emp_no,from_date)); 答案:select s1.emp_no , s1.salary,count(distinct s2.salary...
2018-07-31 00:26:21
787
1
原创 SQL_练习:统计各个部门对应员工涨幅的次数总和,给出部门编码dept_no、部门名称dept_name以及次数
sum CREATE TABLE departments ( dept_no char(4) NOT NULL, dept_name varchar(40) NOT NULL, PRIMARY KEY (dept_no)); CREATE TABLE dept_emp ( emp_no int(11) NOT NULL, dept_no char(4) NOT NULL, ...
2018-07-31 00:19:18
1172
1
原创 SQL_练习:查找所有员工自入职以来的薪水涨幅情况,给出员工编号emp_no以及其对应的薪水涨幅growth,并按照growth进行升序
CREATE TABLE employees ( birth_date date NOT NULL, first_name varchar(14) NOT NULL, last_name varchar(16) NOT NULL, gender char(1) NOT NULL, hire_date date NOT NULL, PRIMARY KEY (emp_no)); ...
2018-07-31 00:13:05
670
1
原创 SQL_触发器、外键约束
1、构造一个触发器audit_log,在向employees_test表中插入一条数据的时候,触发插入相关的数据到audit中。 CREATE TABLE employees_test( ID INT PRIMARY KEY NOT NULL, NAME TEXT NOT NULL, AGE INT NOT NULL, ADDRESS CHAR(50), SALARY REAL );...
2018-07-30 23:39:39
840
原创 SQL_基础更改;创建表、索引:create,insert into,index,alter,update, replace , rename,delete
1、创建一个actor表,包含如下列信息 列表 类型 是否为NULL 含义 actor_id smallint(5) not null 主键id first_name varchar(45) not null 名字 last_name varchar(45) not null 姓氏 last_update timestamp not null ...
2018-07-30 23:37:31
422
原创 SQL_基础指令:|| ’连接‘ ||,length(), substr(), group_concat(), limit ... offset
1、将employees表的所有员工的last_name和first_name拼接起来作为Name,中间以一个空格区分 CREATE TABLE employees ( emp_no int(11) NOT NULL, birth_date date NOT NULL, first_name varchar(14) NOT NULL, last_name varchar(16) NOT N...
2018-07-30 23:13:49
780
原创 SQL_基础查找练习:limit、distinct、max()、avg()、exists
1、查找最晚入职员工的所有信息 CREATE TABLE employees ( emp_no int(11) NOT NULL, birth_date date NOT NULL, first_name varchar(14) NOT NULL, last_name varchar(16) NOT NULL, gender char(1) NOT NULL, hire_date d...
2018-07-30 23:09:25
309
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人