- 博客(47)
- 资源 (10)
- 问答 (1)
- 收藏
- 关注
原创 python pandas读取csv、excel文件乱码
就想到用记事本软件打开看看是啥格式。用sublime打开那个csv,按ctrl+S(保存该文件),在sublime下方出现了一条提示,看到了这个文件的格式,是utf-16.想着转换为Excel格式看看,是否就好了。就用wps打开,并另存为 .xls结尾的excel文件,使用还是乱码。然后加上编码就可以读取了。虽然这个是csv文件,但是看到只有一列,值中间还有、应该是编码问题,但是不知道咋解决,在读取时,设置为utf-8也没用。下载了一个csv表格,pandas读取了,打出来的是乱码。.........
2022-08-13 23:35:51 2131 2
原创 大数据工作中变通技巧
1.将hive数据保存为一个csv文件,但是这个文件在线上服务器上,无法直接下,那么可以把这个文件传到Hadoop HDFS上,然后在HUE的文件管理界面下载。hive存为csv文件命令hive -e "set hive.cli.print.header=true; show partitions xxx.xxx ;" | sed 's/[\t]/,/g' > partitions.csv上传命令hadoop fs -put partitions.csv /user/xxx/xxx..
2020-08-08 18:56:44 295
原创 word2vec不能结束训练
分类目训练商品 word2vec。logger.info("Training...")logger.info(" history_index len :%s" % len(self.history_index))if len(self.history_index) > 10: # 有10条以上数据才计算logger.info(" start Word2Vec ... ")model = Word2Vec(self.history_index, size=representation_siz
2020-07-06 16:56:59 310
原创 mac安装xlearn遇到的cmake、gcc问题
直接用pip install xlearn 网络老是失败。然后就下载好xlearn-0.40a1.tar.gz 包,通过pip install ./xlearn-0.40a1.tar.gz安装。但是报错Failed building wheel for xlearn……Exception: Please install CMake first……但是看cmake已经安装了。(ba...
2020-05-03 17:13:26 783
原创 PYSPARK_PYTHON 环境问题
报错Exception: Python in worker has different version 2.7 than that in driver 3.7, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVE...
2020-04-17 14:31:22 1063
原创 使用crontab时无法保存 errors in crontab file, can't install.
提示信息:[user ]$ crontab -ecrontab: installing new crontab"/tmp/crontab.S0Me6x":36: bad hourerrors in crontab file, can't install.Do you want to retry the same edit?Enter Y or N原因是cron表达式写错了。...
2020-04-02 15:57:38 2816
原创 mac 实用软件 截图 文本 压缩 日历
1.文本软件Windows的notepad++特别好用,mac上没有。比较下来UltraEdit_18.00.0.40比较好用。且能打开 几个G 的文件。其他的比如:① sublime 不适合打开超大文件。② Atom 打开大文件会有“可能会卡死”的提示,且打开稍慢。③ Brackets 超过16M不能打开。https://bbs.feng.com/read-htm-tid-1082...
2019-05-11 21:55:36 793 1
原创 mac搭建大数据环境遇到的问题
使用brew安装hadoop,使用无法正常市用。最终是使用下载解压包的方式。问题1 Invalid HADOOP_COMMON_HOMExin:out root# hadoop jar /usr/local/Cellar/hadoop/3.1.2/libexec/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-3.1.2-so...
2019-05-11 21:38:31 1073
原创 SSH 免密登录
目录结构免密登录相关文件放在~/.ssh目录下,主要有4个文件。[root@linux1 .ssh]# pwd/root/.ssh[root@linux1 .ssh]# lltotal 16-rw-r--r--. 1 root root 393 May 21 04:48 authorized_keys-rw-r--r--. 1 root root 0 May 21 05...
2019-05-11 18:45:19 1135
原创 mac 无法使用 ssh root@本机
解决方法以root身份,chmod +w /etc/ssh/sshd_configvi /etc/ssh/sshd_configPermitRootLogin 的默认是 prohibit-password ,改成 yes 。如果只是去掉前面的 # 号,那么只有root用户可以ssh,普通用户不能ssh root@本机。...
2019-05-11 16:53:32 2861
原创 spark 日志级别设置为ERROR
想只显示ERROR日志。方式1代码里设置 val sc = new SparkContext(conf) sc.setLogLevel("ERROR")这个启动时,仍然会有月一些其他日志.方式2log4j.properties文件设置1.新建一个resource目录,在文件夹上右击,mark as reources root。2.新建一个log4j.properties...
2019-04-19 14:54:26 10024 4
原创 Linux安装软件 MySql Nginx
1.安装MySql卸载自带的检查linux是否带有mysql的安装包rpm -qa | grep mysql卸载centos6.5自带的mysql的包例如:rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64方式一:yum安装①安装yum install -y mysql mysql-server my...
2019-04-18 21:02:30 270
原创 解决mac使用 lightgbm 时 image not found
brew install cmakebrew install gccgit clone --recursive https://github.com/Microsoft/LightGBM ; cd LightGBM看自己电脑上,gcc是几。我的mac是8。 /usr/local/opt/gcc/lib/gcc/8cd /usr/local/opt/gcc/lib/gcc/xin:~...
2019-03-25 15:18:59 2737
原创 scala spark 的sc.makeRDD速度慢
原来的写法sc.makeRDD(HashMap.toSeq).sortBy(_._2).take(firstN)有两处这样的写法,5万条数据,计算了84分钟。11:52:56 13:16:10后来的写法ListMap.toList.sortBy(_._2).take(firstN)有两处这样的写法,172万条,不到两分钟计算完成。其他参数 .set("spark.d...
2019-03-14 13:56:11 1346
原创 mac搭建本地大数据开发环境
用root用户修改配置文件,没有root用户,先创建一个。例如:vi /etc/profile 保存退出: :wq!1.java一般安装位置/Library/Java/JavaVirtualMachines/jdk1.8.0_201.jdk/Contents/Home2.安装hadoop参考:https://blog.csdn.net/fox64194167/article...
2019-02-26 16:24:54 4647
原创 安装spark报错java路径不对
/Volumes/ds/service/spark-2.4.0-bin-hadoop2.7/bin/spark-class: line 71: /Library/Java/JavaVirtualMachines/jdk1.8.0_201/Contents/Home/bin/java: No such file or directory正确的路径在/Library/Java/JavaVirt...
2019-02-26 16:07:43 3162 1
原创 mac windows 安装两个python环境
同时拥有python3和python2环境。anaconda下载地址https://www.anaconda.com/distribution/#download-section用anaconda图像界面操作# 安装好后,使用activate激活某个环境activate python34 # for Windowssource activate python34 # for Linu...
2019-02-15 15:13:25 1088
原创 opencv Error: Assertion failed (size.width>0 && size.height>0) in cv::imshow,
opencv 报错Error: Assertion failed (size.width>0 && size.height>0) in cv::imshow,原因:路径不能有中文。更多:https://blog.csdn.net/sinat_39150454/article/details/74315806https://stackoverflow.co...
2019-01-21 13:59:19 2744 2
原创 Ubuntu网卡设置连接网络
网络设置参考:https://blog.csdn.net/hurricane_0x01/article/details/51941941语言设置参考:https://blog.csdn.net/langshi_2011/article/details/78993781版本:ubuntu-18.04.1-desktop-amd64.iso1.设置固定IPvi /etc/network/int...
2019-01-10 16:42:58 1995
原创 Maven排除冲突依赖jar包
SequenceFile应该引入的是hadoop包下的,但是引入了flink包下的,因为flink里这个包版本较低,没有这个方法。所以报错。需要排除这个冲突的依赖。1.找出冲突包位置找到冲突包所在的父包。打开idea的 Terminal输入命令:mvn dependency:tree >> a.txt打开生成和文件根据文件显示,这个包在flink-java包下2....
2019-01-07 18:06:06 18043
原创 hbase集群不能启动
hbase集群不能启动,要么只起来某几台,要么是HMaster起来了,RegionServer没起来。原因:时间不同步。进行时间同步。如果能联网,就用 ntpdate -u cn.pool.ntp.org不能联网,就手动指定date 010319492019.30(月日时分年.秒)...
2019-01-03 19:58:51 783
原创 设置Jupyter Notebook工作目录,4种方法都不行,所以改源码
直接看第5段。下面是思考过程,最终方法在第5段。更改Jupyter Notebook起始目录,网上说了4中方法,但是有时候行,有时候不行。有的电脑行,有的电脑不行。https://blog.csdn.net/qq_33039859/article/details/54604533然后想到修改源码的方法。1.找程序目录根据启动jupyter时的控制台信息,知道jupyter程序文件在An...
2018-12-01 17:22:05 6073
原创 hive分隔符\001和\011与\x03 用pandas切割时出现的问题
hive导出数据,想找一个分隔符。hive默认分隔符是“\001”。想换个其他的。在ASCII码对照表中找了下,决定用“\0011”。然后Hive能正常数据,到notepad++里面显示的字符和ASCII码对照表里的是一样的。但是在用“\011”切割时,切割不出,且字段首位不能有空格。后来用“EmEditor”打开这个文件,使用查找替换功能时,发现这个字符被显示为“\x03”。所以在...
2018-11-28 14:00:51 17912
原创 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence
python 读取文件报错UnicodeDecodeError Traceback (most recent call last)<ipython-input-6-0e9485397930> in <module>() 6 path = "data.txt" 7 with open(path,'r')...
2018-11-21 17:56:54 3745
原创 python pandas 路径中有中文 OSError: Initializing from file failed
data = pd.read_csv('D:/code/data/original-data/item-sort/3 - 副本.txt', header=None)OSError: Initializing from file failed
2018-11-08 19:24:47 477
原创 spark-submit几种情况
1.打包打包后,生成两个文件,一个是只包含代码的,一个是包含所有jar包的。2.提交2.1.提交scala文件spark-submit --executor-memory 5g --driver-memory 3g --master spark://node11:7077 < als.scala2.2.提交py文件spark-submit --driver-memory 2...
2018-11-07 17:56:22 4227
原创 数据科学DataScience环境
anaconda36https://www.anaconda.com/download/配置目录在C:\Users\用户.jupyter 目录下新建一个 jupyter_notebook_config.py 文件写一行内容,注意:斜杠一定要是“ / ” 。c.NotebookApp.notebook_dir='D:/code/jupyter'数据科学包pip install pys...
2018-11-07 16:41:55 898
原创 nginx搭文件服务器
1.改为root用户原来的nginx.conf里,第一行是user ngix; # 不同版本的不一样改为user root;2.加一个server在原来的nginx.conf里加一个server配置。配置写在http { } 里面,与其他server 同级别。 autoindex on;# 显示目录 autoindex_exact_size on;# 显示文件大小 auto...
2018-11-07 10:59:39 72797 1
原创 运行 Spark ALS 程序 内存溢出
执行这个20几条记录,机器就会内存溢出,在本地、单机服务器都是这样。换个电脑也是这样。后来也改了代码,还会这样。不过才这么几条数据,就内存溢出,讲不通啊。后来找到一个临时解决方法,就是删除这个application,重新运行。删除后的第一次运行基本都能运行成功。第二次运行就会失败。那么然后就在VM option 里面添加参数:-Xmx10G 。就又能运行几次。...
2018-10-31 15:14:04 1712
原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte
pandas读取一个文件出错。data = pd.read_csv('D:/code/data/rating22.csv')解决方案:用notepad++打开这个文件,将文件用Unicode编码重新保存。Traceback (most recent call last): File "C:/xin/code/gitlab/datascience-py/search-sort/read...
2018-10-30 14:50:51 89442 1
原创 Could not parse Master URL: 'loacl[12]'
代码里设置了是spark本地运行,Master是“local[12]”,但是运行后说无法识别。出现过好几次,具体原因没有找到。解决方案:重启idea后就好了。 val conf = new SparkConf().setAppName("ALSCode2Recomm").setMaster("local[*]")报错信息:18/10/24 11:46:10 WARN Utils: Se...
2018-10-30 14:46:10 9296 1
原创 scala object 无法执行
scala object 无法执行。原因:没有把文件夹标记为源码目录。解决方案:在源码根目录下,右击,标记为源码目录。
2018-10-30 14:40:19 1838
原创 spark-submit 超时 Executor heartbeat timed out after 123574 ms
提交任务到spark集群,老是超时。至于超时原因,可能是计算量太大。解决方案:提交时,加一个参数“–conf spark.network.timeout=10000000”。spark-submit –conf spark.network.timeout=10000000 \参考:https://stackoverflow.com/questions/37260230/spark-clu...
2018-10-30 14:18:43 18231
原创 Python TypeError: 'newline' is an invalid keyword argument for this function
写一个存为csv文件的代码 with open(outputFile, 'w', newline='') as csvfile: writer = csv.writer(csvfile) for item in sortsim: writer.writerow([item[0], item[1], item[2]])出现问题了Traceback (mo...
2018-10-29 15:50:19 7864
原创 scala中各种符号的意思
1. 泛型限定泛型中的符号 <: >: <% : + - 符号 作用 [T <: UpperBound] 上界 [T >: LowerBound] 下界 [T <% ViewBound] 视界 [T : ContextBound] 上下文界 [+T] 协变...
2018-04-08 16:49:38 15948 2
原创 虚拟机网络 - 互通、联网
1.有三种连接模式VMnet0:桥接 Bridge。 电脑使用无线路由器联网时。VMnet1:仅主机 Host-Only。 不推荐使用。VMnet8:NAT。 在有交换机的局域网中。 VMnet0、VMnet1等这些网卡的名字,可以在VMware Workstation里自定义的,默认名字是这三个。2.设置地方有4处2.1、虚拟机全局网卡设置...
2018-03-28 17:26:34 1620
原创 用SSH工具XShell连接谷歌云 root用户或普通用户
目录1.以root用户登入 2.普通用户,秘钥登入 3.启动shadowsocks失败1.用root用户登入1.1.进入谷歌云实例面板1.2.切换到root角色sudo -i 1.3.修改SSH配置文件/etc/ssh/sshd_configvi /etc/ssh/sshd_config修改PermitRootLogin和Password...
2018-03-17 16:34:35 143249 26
宗成庆《统计自然语言处理》 目录的思维导图
2018-11-22
机器学习 统计学习方法概论 思维导图
2018-05-06
《scala语言规范.pdf 》中文、英文版 《scala程序设计》pdf、epub格式 低分打包下载
2018-03-20
Java并发编程技术思维导图
2018-03-14
实战Java高并发程序设计 带目录书签
2018-03-10
Notepad++_6.9.1支持NppFtp插件
2018-03-02
《java并发编程实战》 带源码 带目录书签
2018-02-01
Linux网络编程
2018-01-29
支付风控系统
2018-01-28
啊哈!算法 啊哈磊 带目录书签
2018-01-28
java进程之间以及跟JVM是什么关系
2018-01-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人