![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 82
害死猫的酒馆
这个作者很懒,什么都没留下…
展开
-
推荐系统冷启动等问题汇总
推荐系统冷启动问题冷启动问题简介冷启动问题主要分为三类 1.用户冷启动:如何给新用户做个性化推荐. 2.物品冷启动:如何将新的物品推荐给可能对它感兴趣的用户这一问题. 3.系统冷启动:如何在一个新开发的网站上设计个性化推荐系统. 解决方案: 1.提供非个性化的推荐:热门排行榜,当用户数据收集到一定的时候,再切换为个性化推荐. 2.利用用户注册时提供的年龄、性...原创 2018-12-14 14:06:20 · 456 阅读 · 0 评论 -
hadoop学习笔记
hadoop文件namenode: 存储元数据, 被分块保存的数据的信息,如大小,位置datanode: 存储被分块的数据, path->hadoop/data/dfs/data(本地的实际地址)hadoop会建立一个虚拟的文件目录工客户端访问(hdfs://ip:9000/)HDFS实现思想1. hdfs是通过分布式集群来存储文件, 为客户端提供了一个便...原创 2019-07-27 11:24:56 · 179 阅读 · 0 评论 -
hadoop3.X 安装实践
一、ssh免密登录1、测试是否能免密登录# ssh localhostThe authenticity of host 'localhost (::1)' can't be established.2、设置免密登录1)、去掉 /etc/ssh/sshd_config中的两行注释,如没有则添加,所有服务器都要设置的:#RSAAuthentication yes #Pu...原创 2019-07-17 15:05:28 · 197 阅读 · 0 评论 -
xlwt生成Excel文件
xlwt导出Excel基本原理workbook工作薄的概念我们必须要明确,其是我们工作的基础。与下文的sheet相对应,workbook是sheet赖以生存的载体。workbook = xlwt.Workbook()sheet我们所有的操作,都是在sheet上进行的。sheet = workbook.add_sheet(‘table_message’,cell_overwr...原创 2019-06-29 16:03:29 · 1586 阅读 · 0 评论 -
jAVA基础
JAVA的数组声明: type var-name[]; var-name = new type[size]; type[ ] var-name; var-name = new type[size];int month_days[] = new int[4];int month_days[] = { 31, 28, 31, 30};int twoD[][] = new ...原创 2019-07-12 18:01:17 · 172 阅读 · 0 评论 -
学习记录, 带你玩转Pyppeteer (全干货)
别只用 Selenium,新神器 Pyppeteer 更强大!现在大多数人在使用模拟浏览器进行数据获取的时候, 用的都是Selenium .以至于现在很多网站已经对它做了很多针对性的反爬(比如检测浏览器的webdriver属性). 而Pyppeteer 作为一个新的工具在绕过这些反爬措施中表现的很好. 本文借鉴了部分'原创: 崔庆才 进击的Coder, 别只用 Selenium,新神器 P...原创 2019-06-15 10:19:16 · 11984 阅读 · 2 评论 -
COOKbook读书笔记--第一章
zip(iter1 [,iter2 [...]]) --> zip object , 返回一个迭代器, 元素为每一个iter的对应元组heapq实现优先级队列import heapqclass PriorityQueue:def __init__(self):self._queue = []self._index = 0def push(self, item, prior...原创 2019-06-01 19:15:24 · 137 阅读 · 0 评论 -
BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.-----引入官网地址的一句话 1.1 安装 Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或...原创 2019-06-06 19:48:49 · 215 阅读 · 0 评论 -
pandas数据结构之Dataframe
-- 综述 numpy主要用于进行运算 dataframe更切合于业务逻辑 -- dataframe的常用的属性 属性 说明 shape Dataframe的形状 values DataFrame的值,numpy.ndarray...原创 2019-05-18 14:38:09 · 228 阅读 · 0 评论 -
mongo 的垮库与批量操作
批量更新db.getCollection('JRCP_XYK_WAK_ALL').find({}).forEach( function(item){ db.getCollection('JRCP_XYK_WAK_ALL').update({"_id":item._id},{$set:{"STATUS_": "1"}}) })垮库...原创 2019-05-25 19:12:49 · 227 阅读 · 0 评论 -
MYSQL的update的高级用法
MYSQL的update多个表的UPDATE操作, 指定联合条件whereUPDATE items,month SET items.price=month.price WHERE items.id=month.id;注意:多表 UPDATE 不可以使用 ORDER BY 或 LIMIT链接更新,,在需要中间表的时候-- 更新一张表UPDATE table1 t1 INNE...原创 2019-04-13 16:22:57 · 4307 阅读 · 0 评论 -
scrapy框架杂记
一般爬虫的逻辑是:给定起始页面,发起访问,分析页面包含的所有其他链接,然后将这些链接放入队列,再逐次访问这些队列,直至边界条件结束。为了针对列表页+详情页这种模式,需要对链接抽取(link extractor)的逻辑进行限定。好在scrapy已经提供,关键是你知道这个接口,并灵活运用scrapy框架爬取流程 爬取流程 Scrapy的整个数据处理流程由Scrapy引...原创 2019-04-07 20:24:58 · 171 阅读 · 0 评论 -
Centos7安装Selenium+chrome+chromedriver详细
写在前面: chrome不能再linux下以root的权限运行1、修改yum源 在/etc/yum.repos.d/目录下新建文件google-chrome.repo,向其中添加如下内容: [google-chrome] name=google-chrome baseurl=http://dl.google.com/linux/chrome/rpm/stable/$base...原创 2019-03-31 19:30:36 · 3897 阅读 · 1 评论 -
python 的文件写入方式
open()模式 描述 r 以只读方式打开文件,文件的指针将会放在文件的开头.这是打开文件的默认方式 rb 以二进制格式打开一个文件用于只读.文件指针将会放在文件的开头,一般用于非文本如图片等 r+ 打开一个文件用于读写,文件指针将会放在文件的开头 rb+ 以二进制格式打开一个文件用于读写.文件指针将会放在文件的开头.一般用于费文件如图片等 w...原创 2019-03-24 21:57:38 · 1650 阅读 · 0 评论 -
mongodb语法
mongodb使用指南连接mongodb数据库,建立连接对象,用连接对象建立一个具体数据库对象,然后用数据库对象就可以查询表了.from pymongo import MongoClient#建立数据库连接对象 client = MongoClient('mongodb://45.76.206.145:27017')db = client.spider # 建立数据库对...原创 2019-03-10 20:42:14 · 117 阅读 · 0 评论 -
pandas数据结构之numpy
-- 综述 numpy主要用于进行运算 dataframe更切合于业务逻辑 -- numpy的创建, 传入多维数组或者使用routines函数创建 import numpy as np test = np.array([[1,2,3],[4,5,6]]) -- routines函数创建 ...原创 2019-03-03 21:21:28 · 154 阅读 · 0 评论 -
全球国家中英文对照
"阿富汗" : "Afghanistan""奥兰群岛" : "Aland Islands""阿尔巴尼亚" : "Albania""阿尔及利亚" : "Algeria""美属萨摩亚" : "American Samoa""安道尔" : "Andorra"&quo原创 2019-01-18 15:18:13 · 2005 阅读 · 0 评论 -
在win7上安装spark实践
一、搭建的环境windows7spark-2.4.3python-3.6.5Java8二、安装部署1、安装Java/Jdk下载jdk-8u152-windows-x64.exe,根据安装指南进行安装,配置环境变量JAVA_HOME,在Path中添加%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin,在CLASSPATH中添加%JAVA_HOME%\lib...原创 2019-08-16 18:03:58 · 669 阅读 · 1 评论