自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

原创 将Excel的数据自动导入到neo4j中去

1.DataToNeo4jClass.py# -*- coding: utf-8 -*-from py2neo import Node, Graph, Relationshipclass DataToNeo4j(object): """将excel中数据存入neo4j""" # 初始化 def __init__(self): """建立连接"""...

2020-03-10 15:54:51 4796 1

原创 REC转为excel的形式(openpyxl),支持大数据量转化,非常快

# coding=utf-8'''#author: 东邪'''import xlwtimport openpyxlimport refrom openpyxl.cell.cell import ILLEGAL_CHARACTERS_REworkbook = openpyxl.Workbook() #创建excelsheet1 = workbook.activeshee...

2020-03-10 15:51:05 1347

原创 对excel里面列分词

import jiebaimport xlrdfrom datetime import date,datetimeimport xdrlib,sysimport xlwtdef read_excel(): data =xlrd.open_workbook(r"C:\Users\jhy\Desktop\2019全年用户问题未识别9224-15000.xlsx") f...

2020-02-04 09:32:31 3255

原创 解数独

package samples;public class example37 { public static void main(String[] args) { char[][] board = new char[][]{ {'5', '3', '.', '.', '7', '.', '.', '.', '.'}, ...

2020-01-30 09:55:26 124

原创 python常用的小知识

from math import ceilfrom collections.abc import *import difflibimport reimport sysimport time#from iteration_utilities import deepflattenfrom collections import Counterimport randomclass E...

2020-01-10 15:49:18 145

转载 python装饰器

1 写在前面python中使用@放在函数上方便定义一个装饰器,很多朋友觉得使用装饰器太魔幻,始终不知道怎么灵活使用。要想做到灵活使用,得首先明白它的本质。今天,我试着用最通俗的语言,几行代码和小例子来解释装饰器的本质。2 小例子这是一个装饰器:def call_print(f): def g(): print('you\'re calling %s function...

2020-01-09 19:03:22 139

原创 python判断一个文件每行数据是否有相同元素,相同的元素name唯一,value值合并

方法一:工程化思维,就是程序员正常思维 ,直接写代码建一个缓存表,循环遍历lines,放到缓存表,缓存表存储不重复的元素数据格式:其他股份有限公司分公司(上市) VAR_COMPANY_TYPE外商投资 VAR_COMPANY_TYPE共建 VAR_COMPANY_TYPE国有事业单位营业 VAR_COMPANY_TYPE共建 VAR_MANAGERclass Example...

2020-01-08 20:33:32 1301

转载 从Excel到Python:最常用的36个Pandas函数

https://mp.weixin.qq.com/s/ExlGCUO6Cvo1VN7z7WvCKw

2019-12-26 08:23:08 161

原创 java读取一个目录下的所有文件里面的内容并写入数据库

//获取本地文件,读取本地文件里的kbase语句 public void bulklod() throws Exception,FileNotFoundException { // 获取目标服务器 kbase path String serverPath = ""; String driver_name = "com.kbase.jdbc...

2019-12-25 16:00:32 619 1

原创 python批量修改文件后缀

import argparseimport osdef get_parser(): parser = argparse.ArgumentParser( description='工作目录中文件后缀名修改') parser.add_argument('work_dir', metavar='WORK_DIR', type=str, nargs=1, ...

2019-12-24 16:06:23 149

转载 neo4j入门案例(电影例子)

转载:https://blog.csdn.net/hepei120/article/details/86618867

2019-10-10 09:52:25 787

原创 JAVA版将Excel转为REC的格式

import java.io.BufferedWriter;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import ja...

2019-09-11 17:26:31 709

原创 Excel转成REC的格式文件

import osimport pandas as pdimport numpy as npimport reos.chdir(os.getcwd())path = r"D:\Example\untitled\excel生成REC通用\\工作簿1"file = "最美四季"data = pd.read_excel(r"{0}\{1}.xlsx".format(path,fil...

2019-09-11 16:18:48 1821

转载 seq2seq聊天机器人

1.cmd下到文件目录,运行 python demo.py train,预料多的话训练的会非常慢2.训练完后,输入 python demo.py predictdemo.py# coding:utf-8import sysimport numpy as npimport tensorflow as tffrom tensorflow.contrib.legacy_seq2s...

2019-08-07 19:11:47 270

原创 爬取新浪新闻(嵌套爬取,爬取子链接,然后每个子链接的详情页里面内容)

1.首先命令行输入: scrapy startproject newsSpider2.在spider文件夹下,建立Spider.py文件,具体如下:import osimport scrapyfrom ..items import NewsspiderItemclass newsSpider(scrapy.Spider): name = 'news' allowed_...

2019-08-07 17:33:07 997

原创 时期实体识别

import refrom datetime import datetime,timedeltafrom dateutil.parser import parseimport jieba.posseg as psgUTIL_CN_NUM = { '零': 0, '一': 1, '二': 2, '两': 2, '三': 3, '四': 4, '五': 5, '六': 6,...

2019-07-20 15:56:24 187 1

原创 python操作树形的excel结构生成REC特定格式(包括生成父节点ID)

# -*- coding: utf-8 -*-# 作者:东邪import xlrdlast_line=['']*4# 打开文件try: data = xlrd.open_workbook("图书馆业务数据_三级导航.xls")except: print("fail to open file")else: # 文件读写方式是追加 file = open...

2019-06-05 14:46:34 631

原创 python自动化测试

测试API`http://192.168.100.75XXXXXXXXXXXXXXXXXXXXX解析json:{'result': True, 'MetaList': [{ 'ID': '-1769765650_2108236046', 'Data': {'Extra': {'来源链接': '', '答案': '您...

2019-05-30 16:54:17 228

原创 python正则方式过滤掉excel中的某个字

import rewith open('C:\\Users\\lvhao\\Desktop\\作者数据处理.txt','r') as f: dic = {} for line in f: linelist = line.split('\t') # print(linelist[1]) keywords = ['著','主编','编'...

2019-05-13 19:58:38 534

原创 如何过滤掉表格一列的包含英文的

import refile = open('C:\\Users\\lvhao\\Desktop\\test3.xlsx','w')with open('C:\\Users\\lvhao\\Desktop\\test2.xlsx','r') as f: dic = {} for index,line in enumerate(f): #print(line,in...

2019-05-13 14:30:57 313

原创 处理数据,把作者名字提取出来

with open('C:\\Users\\lvhao\\Desktop\\test.txt','r') as f: dic = {} for line in f: listlist = line.split(' ') #print(listlist[1]) if '著' in listlist[1]: lis...

2019-05-13 14:09:23 551

原创 爬取的网页翻页是js的(构造post请求,ajax 异步刷新的, 只抓ajax调用的接口就行),然后保存固定格式

import requestsimport jsonfrom lxml import etreeimport time'''注意,河北省博物馆这个网站。从第二页开始是这样匹配的replys = '///*[@class="liuyantiaotaio t110"]/tr/td[2]/p/span/text()'第一页的回复语句replys = '///*[@class="liuyan...

2019-05-08 15:58:29 1196

原创 爬虫使用xpath解析(并保存成固定格式的文件)

爬取广西壮族自治区博物馆import requests# from bs4 import BeautifulSoupimport urllibfrom lxml import etreeimport timeimport reurl = 'http://www.gxmuseum.cn/plus/guestbook.php?gotopagerank=&totalresult=...

2019-05-08 08:44:19 851

原创 爬虫使用soup解析(并保存成固定格式文件)

爬取安徽省博物馆:import requestsfrom bs4 import BeautifulSoupurl = 'http://www.ahm.cn/Service/Leaveword/zxzx#page='def get_info(url, data=None): wd_data = requests.get(url) soup = BeautifulSoup(...

2019-05-08 08:42:57 854

原创 decode和encode关系

#coding=utf-8#Python2中默认是ASCII码,一般会加入以utf-8编程a = ‘编码’ # a是utf-8类型b = a.decode(‘utf-8’) # b是Unicode类型c = b.encode(‘gbk’) #c是gbk类型d = c.decode(‘gbk’).encode(‘utf-...

2019-04-20 23:53:13 135

原创 数据仓库

离线数据内容建设会对精心加工后的数据进行分层:ODS原始数据层DWD明细数据层DWS汇总层ADS集市数据层三种搭建数据仓库的方式:传统OLTP数据库中搭建商业性数据仓库产品中搭建(MPP架构的Teradata)基于Hadoop来搭建不管哪种方式都会面临以下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可拓...

2019-04-13 21:25:59 677

原创 kafka

预读:就是说我在浏览文章的时候当我们浏览到了这一行数字的时候,因为我是从上往下去阅读的,当我阅读到某一行的时候,那这个操作系统会大概率的会认为我要马上阅读下面那条记录,所以为下度这条记录的时候,操作系统会提前把下一行记录帮我读出来,这就是一个预读的功能。后写:后写就是我们会往这个操作系统上会有大量的写,如果你是每一次请求你去写一次的话,比如说我们写一千字,你可能对这个数据有一千次的操作对吧,...

2019-04-10 19:40:51 121

原创 Flume+kafka

1.启动kafka前,先启动zookeeper启动kafka:三台机器,每台机器都这样./bin/kafka-server-start.sh config/server.properties2.如果没有topic,创建topic查看topic list:bin/kafka-topics.sh --list --zookeeper master:2181,slave1:2181,slav...

2019-04-09 23:17:03 332

原创 Flume

常用分析指标:.1. 常规数据指标的监测:用户量,新用户量,UGC(社交产品),销量,付费量,推广期间各种数据等。2. 渠道分析/流量分析:分析/监控引流渠道优劣3. 用户的核心转化率:统计付费率,购买率4. 用户使用时长的监测:用户活跃度,产品验证5. 用户流失情况:监控用户的流失率(1,3,7,30)6. 活跃用户动态:关注活跃用户动态7. 用户特征描述:算法建模上,和产品上...

2019-04-08 23:08:36 280

原创 文本相似度NLP

nlp.py# -*- coding: utf-8 -*-# 作者:东邪import numpy as np# a = np.array([1, 0, 1])# b = np.array([1, 1, 0])## sum = 0# for i, j in zip(a, b):# sum += i*j# print(sum)# print(a.dot(b))impo...

2019-04-06 17:32:06 289

原创 音乐推荐项目

音乐数据有3个原始文件:①music_meta(音乐信息),有以下字段'item_id', ' item_name', 'desc', 'total_timelen', 'location', 'tags'音乐id , 音乐名称, 音乐描述, 音乐总共的时长, 发布的地区, 标签②user_profile....

2019-04-03 23:40:33 794 1

原创 HMM

每个状态只依赖之前有限个状态– N阶马尔科夫:依赖之前n个状态– 1阶马尔科夫:仅仅依赖前一个状态• p(w1,w2,w3,……,wn) = p(w1)p(w2|w1)p(w3|w1,w2)……p(wn|w1,w2,……,wn-1) =log p(w1)p(w2|w1)p(w3|w2)……p(wn|wn-1) +lambda( p(w1)+…+p(wn)-1)+…例如:p(w1=今天,w...

2019-04-02 18:40:16 202

原创 中文分词

最常见的分词方法是基于词典匹配– 最大长度查找(前向查找,后向查找)后向查找准确数据结构– 为了提高查找效率,不要逐个匹配词典中的词– 查找词典所占的时间可能占总的分词时间的1/3左右,为了保证切分速度,需要选择一个好的查找词典方法– Trie树常用于加速分词查找词典问题说明反向比较好,正向的话有歧义贝叶斯公式:大学生大学大脑大型活动 p(w2=学|w1=大)=p(大...

2019-04-01 23:22:04 209

原创 基于CB的推荐算法

CB算法对于线上很好用,尤其新用户进来,直接给我推荐跟我正在浏览相似的物品(这个相似的物品可以基于内容的推荐,如果这个物品在item-item相似度矩阵里面的话,可以基于item_cf做一个推荐,如果不在就基于内容推荐)。冷启动,可以推一些热门的物品。举个简单的小例子用户u1喜欢的电影是A,B,C用户u2喜欢的电影是A,C,E,F用户u3喜欢的电影是B,D我们需要解决的问题是:决定对u1...

2019-04-01 21:47:44 529

原创 协同过滤CF

我门需要三个方面进行给用户推荐,前两个是基于用户的,最后一个是基于内容的(这部分需要切词)。用户的历史记录,会有一个user-item矩阵,根User-Based CF 计算user与user的相似度矩阵。Item-Based CF 就算item-item的相似度矩阵。CF的优点– 充分利用群体智慧(历史行为数据)– 推荐精度高于CB– 利于挖掘隐含的相关性(啤酒尿布)• 缺点– ...

2019-03-31 12:15:38 196

原创 快速判重——布隆过滤器(Bloom Filter)

1.由一个很长的二进制向量和一系列随机映射函数组成2.布隆过滤器可以用于检索一个元素是否在一个集合中3.优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率应用:给定数据(2,4,1,12,9,7,6)如何对它排序?方法1:基本的排序方法包括冒泡,快排等。方法2:使用BitMap算法所谓的BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素...

2019-03-31 09:18:02 593

原创 商品LR训练

线性回归:训练过程2. 求w:1)定义误差 err2)怎么衡量哪条直线最好?所有点的误差平方和最小最好 (学习的目标)【Loss损失函数】【cost代价函数】3)求导等于0来求最小值对应的参数w交叉验证:样本分成5分:1,2,3,4,5以1,2,3,4为训练,第5份作为预测以1,2,3,5为训练,第4份作为预测以1,2,4,5为训练,第3份作为预测以1,3,4,5为训练...

2019-03-28 20:01:54 176

原创 Spark理论

exector都是装载在container里运行,executor分配的内存是executor-memory,像Yarn申请的内存是(executor-memory+1)*num-executors.AM在Spark中叫driver,AM像RM申请的是executor资源,当分配完后,executor启动,由spark的AM向executor分配task,分配task、分配到哪个executor...

2019-03-27 22:39:52 216

原创 hadoop2.0(yarn)

原hadoop1.0的JobTracker和TaskTracker不见了,取而代之的是ResourceManager,ApplicationMaster,NodeManager三部分。JobTracker变成了ResourceManager,ApplicationMasterTaskTracker变成NodeManager在yarn中Job概念换成了application应用程序几个job...

2019-03-27 11:55:00 173

原创 scala练习(一)

一、scala wordcount1.先将数据导入到scalaimport scala.io.Sourceval lines = Source.fromFile("./The_man_of_property.txt").getLines().toListlines.map(x=>x.split(" ")).flatten等价于lines.flatMap(x=>x.sp...

2019-03-26 16:02:54 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除