谁说大象不能跳舞-CSDN博客

原创将Excel的数据自动导入到neo4j中去

1.DataToNeo4jClass.py# -*- coding: utf-8 -*-from py2neo import Node, Graph, Relationshipclass DataToNeo4j(object): """将excel中数据存入neo4j""" # 初始化 def __init__(self): """建立连接"""...

2020-03-10 15:54:51 4796 1

原创 REC转为excel的形式（openpyxl），支持大数据量转化，非常快

# coding=utf-8'''#author: 东邪'''import xlwtimport openpyxlimport refrom openpyxl.cell.cell import ILLEGAL_CHARACTERS_REworkbook = openpyxl.Workbook() #创建excelsheet1 = workbook.activeshee...

2020-03-10 15:51:05 1347

原创对excel里面列分词

import jiebaimport xlrdfrom datetime import date,datetimeimport xdrlib,sysimport xlwtdef read_excel(): data =xlrd.open_workbook(r"C:\Users\jhy\Desktop\2019全年用户问题未识别9224-15000.xlsx") f...

2020-02-04 09:32:31 3255

原创解数独

package samples;public class example37 { public static void main(String[] args) { char[][] board = new char[][]{ {'5', '3', '.', '.', '7', '.', '.', '.', '.'}, ...

2020-01-30 09:55:26 124

原创 python常用的小知识

from math import ceilfrom collections.abc import *import difflibimport reimport sysimport time#from iteration_utilities import deepflattenfrom collections import Counterimport randomclass E...

2020-01-10 15:49:18 145

转载 python装饰器

1 写在前面python中使用@放在函数上方便定义一个装饰器，很多朋友觉得使用装饰器太魔幻，始终不知道怎么灵活使用。要想做到灵活使用，得首先明白它的本质。今天，我试着用最通俗的语言，几行代码和小例子来解释装饰器的本质。2 小例子这是一个装饰器：def call_print(f): def g(): print('you\'re calling %s function...

2020-01-09 19:03:22 139

原创 python判断一个文件每行数据是否有相同元素，相同的元素name唯一，value值合并

方法一：工程化思维，就是程序员正常思维，直接写代码建一个缓存表，循环遍历lines，放到缓存表，缓存表存储不重复的元素数据格式：其他股份有限公司分公司(上市) VAR_COMPANY_TYPE外商投资 VAR_COMPANY_TYPE共建 VAR_COMPANY_TYPE国有事业单位营业 VAR_COMPANY_TYPE共建 VAR_MANAGERclass Example...

2020-01-08 20:33:32 1301

转载从Excel到Python：最常用的36个Pandas函数

https://mp.weixin.qq.com/s/ExlGCUO6Cvo1VN7z7WvCKw

2019-12-26 08:23:08 161

原创 java读取一个目录下的所有文件里面的内容并写入数据库

//获取本地文件，读取本地文件里的kbase语句 public void bulklod() throws Exception,FileNotFoundException { // 获取目标服务器 kbase path String serverPath = ""; String driver_name = "com.kbase.jdbc...

2019-12-25 16:00:32 619 1

原创 python批量修改文件后缀

import argparseimport osdef get_parser(): parser = argparse.ArgumentParser( description='工作目录中文件后缀名修改') parser.add_argument('work_dir', metavar='WORK_DIR', type=str, nargs=1, ...

2019-12-24 16:06:23 149

转载 neo4j入门案例（电影例子）

转载：https://blog.csdn.net/hepei120/article/details/86618867

2019-10-10 09:52:25 787

原创 JAVA版将Excel转为REC的格式

import java.io.BufferedWriter;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import ja...

2019-09-11 17:26:31 709

原创 Excel转成REC的格式文件

import osimport pandas as pdimport numpy as npimport reos.chdir(os.getcwd())path = r"D:\Example\untitled\excel生成REC通用\\工作簿1"file = "最美四季"data = pd.read_excel(r"{0}\{1}.xlsx".format(path,fil...

2019-09-11 16:18:48 1821

转载 seq2seq聊天机器人

1.cmd下到文件目录，运行 python demo.py train，预料多的话训练的会非常慢2.训练完后，输入 python demo.py predictdemo.py# coding:utf-8import sysimport numpy as npimport tensorflow as tffrom tensorflow.contrib.legacy_seq2s...

2019-08-07 19:11:47 270

原创爬取新浪新闻（嵌套爬取,爬取子链接，然后每个子链接的详情页里面内容）

1.首先命令行输入： scrapy startproject newsSpider2.在spider文件夹下，建立Spider.py文件，具体如下：import osimport scrapyfrom ..items import NewsspiderItemclass newsSpider(scrapy.Spider): name = 'news' allowed_...

2019-08-07 17:33:07 997

原创时期实体识别

import refrom datetime import datetime,timedeltafrom dateutil.parser import parseimport jieba.posseg as psgUTIL_CN_NUM = { '零': 0, '一': 1, '二': 2, '两': 2, '三': 3, '四': 4, '五': 5, '六': 6,...

2019-07-20 15:56:24 187 1

原创 python操作树形的excel结构生成REC特定格式(包括生成父节点ID)

# -*- coding: utf-8 -*-# 作者:东邪import xlrdlast_line=['']*4# 打开文件try: data = xlrd.open_workbook("图书馆业务数据_三级导航.xls")except: print("fail to open file")else: # 文件读写方式是追加 file = open...

2019-06-05 14:46:34 631

原创 python自动化测试

测试API`http://192.168.100.75XXXXXXXXXXXXXXXXXXXXX解析json:{'result': True, 'MetaList': [{ 'ID': '-1769765650_2108236046', 'Data': {'Extra': {'来源链接': '', '答案': '您...

2019-05-30 16:54:17 228

原创 python正则方式过滤掉excel中的某个字

import rewith open('C:\\Users\\lvhao\\Desktop\\作者数据处理.txt','r') as f: dic = {} for line in f: linelist = line.split('\t') # print(linelist[1]) keywords = ['著','主编','编'...

2019-05-13 19:58:38 534

原创如何过滤掉表格一列的包含英文的

import refile = open('C:\\Users\\lvhao\\Desktop\\test3.xlsx','w')with open('C:\\Users\\lvhao\\Desktop\\test2.xlsx','r') as f: dic = {} for index,line in enumerate(f): #print(line,in...

2019-05-13 14:30:57 313

原创处理数据，把作者名字提取出来

with open('C:\\Users\\lvhao\\Desktop\\test.txt','r') as f: dic = {} for line in f: listlist = line.split(' ') #print(listlist[1]) if '著' in listlist[1]: lis...

2019-05-13 14:09:23 551

原创爬取的网页翻页是js的(构造post请求，ajax 异步刷新的, 只抓ajax调用的接口就行)，然后保存固定格式

import requestsimport jsonfrom lxml import etreeimport time'''注意，河北省博物馆这个网站。从第二页开始是这样匹配的replys = '///*[@class="liuyantiaotaio t110"]/tr/td[2]/p/span/text()'第一页的回复语句replys = '///*[@class="liuyan...

2019-05-08 15:58:29 1196

原创爬虫使用xpath解析（并保存成固定格式的文件）

爬取广西壮族自治区博物馆import requests# from bs4 import BeautifulSoupimport urllibfrom lxml import etreeimport timeimport reurl = 'http://www.gxmuseum.cn/plus/guestbook.php?gotopagerank=&totalresult=...

2019-05-08 08:44:19 851

原创爬虫使用soup解析（并保存成固定格式文件）

爬取安徽省博物馆：import requestsfrom bs4 import BeautifulSoupurl = 'http://www.ahm.cn/Service/Leaveword/zxzx#page='def get_info(url, data=None): wd_data = requests.get(url) soup = BeautifulSoup(...

2019-05-08 08:42:57 854

原创 decode和encode关系

#coding=utf-8#Python2中默认是ASCII码，一般会加入以utf-8编程a = ‘编码’ # a是utf-8类型b = a.decode(‘utf-8’) # b是Unicode类型c = b.encode(‘gbk’) #c是gbk类型d = c.decode(‘gbk’).encode(‘utf-...

2019-04-20 23:53:13 135

原创数据仓库

离线数据内容建设会对精心加工后的数据进行分层：ODS原始数据层DWD明细数据层DWS汇总层ADS集市数据层三种搭建数据仓库的方式：传统OLTP数据库中搭建商业性数据仓库产品中搭建（MPP架构的Teradata）基于Hadoop来搭建不管哪种方式都会面临以下问题：怎么组织数据仓库中的数据？怎么组织才能使得数据使用最为方便和便捷？怎么组织才能使得数据仓库具有良好的可拓...

2019-04-13 21:25:59 677

预读：就是说我在浏览文章的时候当我们浏览到了这一行数字的时候，因为我是从上往下去阅读的，当我阅读到某一行的时候，那这个操作系统会大概率的会认为我要马上阅读下面那条记录，所以为下度这条记录的时候，操作系统会提前把下一行记录帮我读出来，这就是一个预读的功能。后写：后写就是我们会往这个操作系统上会有大量的写，如果你是每一次请求你去写一次的话，比如说我们写一千字，你可能对这个数据有一千次的操作对吧，...

2019-04-10 19:40:51 121

原创 Flume+kafka

1.启动kafka前，先启动zookeeper启动kafka：三台机器，每台机器都这样./bin/kafka-server-start.sh config/server.properties2.如果没有topic，创建topic查看topic list：bin/kafka-topics.sh --list --zookeeper master:2181,slave1:2181,slav...

2019-04-09 23:17:03 332

原创 Flume

常用分析指标:.1. 常规数据指标的监测：用户量，新用户量，UGC（社交产品），销量，付费量，推广期间各种数据等。2. 渠道分析/流量分析：分析/监控引流渠道优劣3. 用户的核心转化率：统计付费率，购买率4. 用户使用时长的监测：用户活跃度，产品验证5. 用户流失情况：监控用户的流失率（1，3，7，30）6. 活跃用户动态：关注活跃用户动态7. 用户特征描述：算法建模上，和产品上...

2019-04-08 23:08:36 280

原创文本相似度NLP

nlp.py# -*- coding: utf-8 -*-# 作者:东邪import numpy as np# a = np.array([1, 0, 1])# b = np.array([1, 1, 0])## sum = 0# for i, j in zip(a, b):# sum += i*j# print(sum)# print(a.dot(b))impo...

2019-04-06 17:32:06 289

原创音乐推荐项目

音乐数据有3个原始文件：①music_meta（音乐信息）,有以下字段'item_id', ' item_name', 'desc', 'total_timelen', 'location', 'tags'音乐id , 音乐名称，音乐描述，音乐总共的时长，发布的地区，标签②user_profile....

2019-04-03 23:40:33 794 1

原创 HMM

2019-04-02 18:40:16 202

原创中文分词

最常见的分词方法是基于词典匹配– 最大长度查找（前向查找，后向查找）后向查找准确数据结构– 为了提高查找效率，不要逐个匹配词典中的词– 查找词典所占的时间可能占总的分词时间的1/3左右，为了保证切分速度，需要选择一个好的查找词典方法– Trie树常用于加速分词查找词典问题说明反向比较好，正向的话有歧义贝叶斯公式：大学生大学大脑大型活动 p(w2=学|w1=大)=p(大...

2019-04-01 23:22:04 209

原创基于CB的推荐算法

CB算法对于线上很好用，尤其新用户进来，直接给我推荐跟我正在浏览相似的物品（这个相似的物品可以基于内容的推荐，如果这个物品在item-item相似度矩阵里面的话，可以基于item_cf做一个推荐，如果不在就基于内容推荐）。冷启动，可以推一些热门的物品。举个简单的小例子用户u1喜欢的电影是A,B,C用户u2喜欢的电影是A,C,E,F用户u3喜欢的电影是B,D我们需要解决的问题是：决定对u1...

2019-04-01 21:47:44 529

原创协同过滤CF

我门需要三个方面进行给用户推荐，前两个是基于用户的，最后一个是基于内容的（这部分需要切词）。用户的历史记录，会有一个user-item矩阵，根User-Based CF 计算user与user的相似度矩阵。Item-Based CF 就算item-item的相似度矩阵。CF的优点– 充分利用群体智慧（历史行为数据）– 推荐精度高于CB– 利于挖掘隐含的相关性（啤酒尿布）• 缺点– ...

2019-03-31 12:15:38 196

原创快速判重——布隆过滤器（Bloom Filter）

1.由一个很长的二进制向量和一系列随机映射函数组成2.布隆过滤器可以用于检索一个元素是否在一个集合中3.优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率应用：给定数据（2，4，1，12，9，7，6）如何对它排序？方法1：基本的排序方法包括冒泡，快排等。方法2：使用BitMap算法所谓的BitMap就是用一个bit位来标记某个元素所对应的value，而key即是该元素...

2019-03-31 09:18:02 593

原创商品LR训练

线性回归：训练过程2. 求w：1）定义误差 err2）怎么衡量哪条直线最好？所有点的误差平方和最小最好（学习的目标）【Loss损失函数】【cost代价函数】3）求导等于0来求最小值对应的参数w交叉验证：样本分成5分：1,2,3,4,5以1,2,3,4为训练，第5份作为预测以1,2,3,5为训练，第4份作为预测以1,2,4,5为训练，第3份作为预测以1,3,4,5为训练...

2019-03-28 20:01:54 176

原创 Spark理论

exector都是装载在container里运行，executor分配的内存是executor-memory,像Yarn申请的内存是（executor-memory+1）*num-executors.AM在Spark中叫driver，AM像RM申请的是executor资源，当分配完后，executor启动，由spark的AM向executor分配task，分配task、分配到哪个executor...

2019-03-27 22:39:52 216

原创 hadoop2.0(yarn)

原hadoop1.0的JobTracker和TaskTracker不见了，取而代之的是ResourceManager,ApplicationMaster,NodeManager三部分。JobTracker变成了ResourceManager,ApplicationMasterTaskTracker变成NodeManager在yarn中Job概念换成了application应用程序几个job...

2019-03-27 11:55:00 173

原创 scala练习（一）

一、scala wordcount1.先将数据导入到scalaimport scala.io.Sourceval lines = Source.fromFile("./The_man_of_property.txt").getLines().toListlines.map(x=>x.split(" ")).flatten等价于lines.flatMap(x=>x.sp...

2019-03-26 16:02:54 384

空空如也

空空如也