大西觉得海星-CSDN博客

原创把爵迹弄下来看看

import pdbimport requestsimport scheduleimport spacyimport timefrom lxml import etreedef text_info(url): ret = "" r = requests.get(url) content = r.content html = etree.HTML(content) text_info_xpath = html.xpath('//html/body/d.

2020-07-03 16:56:16 277

原创 github上拉去代码速度过慢的问题

使用socks5代理#useproxygitconfig--globalhttp.proxy'socks5://127.0.0.1:1080'gitconfig--globalhttps.proxy'socks5://127.0.0.1:1080'#unuseproxygitconfig--global--unsethttp.proxy...

2020-03-16 10:52:45 302

原创 vscode配置

{ "editor.minimap.enabled": false, "breadcrumbs.enabled": false, "python.linting.flake8Enabled": true, "python.linting.pylintEnabled": false, "[markdown]": { "editor.tab...

2020-01-03 00:15:48 216

原创全国城市python-json格式

# -*- coding: utf-8 -*-"""PROVINCE 省份CITY 城市COUNTRY 国家"""PROVINCE = [u'\u5e7f\u4e1c', u'\u5317\u4eac', u'\u4e0a\u6d77', u'\u5929\u6d25', u'\u91cd\u5e86', u'\u5b89\u5fbd', u'\u798...

2019-07-25 16:14:15 4758

原创 kryo序列化方式测试

kryo序列化测试测试spark程序运行中对RDD进行操作，添加与不添加序列化在性能上的区别。区别包括占用内存大小，程序运行时间等。测试spark流程随机生成字符串，以空格分割成行，进行多次map遍历。对结果进行持久化，并保存成文件。case class DataCase(input: Int) // 一个简单的case class.val testNew2 = testRDD.f...

2019-07-02 18:41:04 689

原创使用jmap出现的问题

使用jmap -heap查看详细信息报错[spark@cs01 ~]$ jmap -heap 24982Attaching to process ID 24982, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.151-b12using thread-...

2019-04-13 15:04:28 751

原创 Scala环境配置

下载二进制jdk和scala-2.12.8压缩包，配置环境变量到各个压缩包的bin下。打开终端，输入java -version检查java环境。javac -version检查java编译环境。scala -version检查scala环境。scala，java的CLASSPATH配置配置CLASSPATH，可以通过这个路径导入路径下的jar包。也可以将jar包复...

2019-04-10 11:57:03 118

原创 lxml一些函数说明

etree篇from lxml import etreehtml篇from lxml import htmlfromstring(content)如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset，对源码进行解码。<meta http-equiv="content-type" ...

2019-03-07 10:30:12 471

原创正则表达式稍微高级点的用法，不断更新。

import restr_ = "(x)abc ()def (x)ghi"print re.findall("$x$(.*?)(?=|$|$x$)", str_)# >>> ['abc ', 'ghi']# 匹配所有勾选过的内容。直到下一个括号或者空括号或者行尾。 1. (pattern) 匹配pattern并获取这一匹配。 ...

2019-02-13 17:09:51 395

原创 SQL,Redis,python操作

§ redisimportimport redisfrom redis.sentinel import Sentinelredis连接方式redis_sentinel = Sentinel([(host_1, port_1), (host_2, port_2)])r = redis_sentinel.master_for("master_test", db=0, max_c...

2019-01-18 10:17:56 150

原创 python importlib

# -*- coding: utf-8 -*-from importlib import import_moduleimport pdbmodule = import_module("test2")test_class = getattr(module, "Test") # 类test_instance = test_class() # 实例化print dir(test_in...

2019-01-03 14:14:20 210

原创 python模块os和sys

# -*- coding: utf-8 -*-import osimport sys"""§ os"""os.name # 返回当前操作系统内核。# windows返回nt内核，linux返回posix内核。os.environ # 返回当前环境变量，全部 <type 'dict'>。os.getenv() # 获得环境变量 os.getenv("PYTHO...

2018-12-06 18:35:02 152

原创 pip使用国内源

阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://py...

2018-10-20 10:17:49 1436

原创 python多线程

# -*- coding:utf-8 -*-import time# import threadimport threadingdef count_time(func): def inner(*args, **kwargs): start_time = time.time() ret = func(*args, **kwargs) ...

2018-09-29 09:26:39 173

原创 selenium常用方法不断更新

添加chromedriver如果chromedriver在环境变量里，不用添加chromedriver的路径。driver = webdriver.Chrome()driver = webdriver.Chrome(chromedriver_path)常用函数back() # 返回/后退close() # 关闭当前标签current_url # 当前标签的网址 f...

2018-09-12 11:05:21 511

原创 xpath对当前节点定位

ele = body.xpath('//*[@id="shareholderInfo"]/tbody/tr[1]/td[2]')[0]print dir(ele)ii = ele.iterancestors()list_ = []list_.append(ele.tag)print ele.tagfor i in ii: print i.tag list_.appen...

2018-09-07 15:55:30 1811

原创 Phantomjs和selenium安装方法

下载安装http://phantomjs.org/download.html解压添加bin目录到环境变量C:\phantomjs-2.1.1-windows\bin cmd powershell里输入phantomjs -v返回正确的版本号说明安装成功自动化测试工具selenium安装方法 pip安装最新版本 3.0.1版本seleniumpip in...

2018-08-31 23:41:55 350

原创 xpath的使用方法，爬虫实例

# -*- coding:utf-8 -*-""" 爬虫创业邦创业公司信息爬取网页url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'爬取页面中的创业公司，融资阶段，创业领域，成立时间和创业公司的链接信息。使用到requests, json, codecs, lxml等库requests用于访问页面，获取页面的源代码jo...

2018-08-26 10:19:29 1877 1

原创 lxml.xpath用法

# -*- coding: utf-8 -*-import requestsfrom lxml import etree"""url = 'http://www.baidu.com'r = requests.get(url, timeout=5)r.encoding = r.apparent_encodingprint r.status_codetext = r.text...

2018-07-30 14:36:04 917

原创 python操作excel工作表

"""python操作excel 写入ecxel"""## ## ## ## ## ## ## ## ## ## ## ### -*- coding:utf-8 -*-import xlrdfile_path = r'C:\Users\poseidon\Desktop\点名册.xls'def excel_test(): path = unicode(file_path, ...

2018-06-01 13:41:03 969

原创 requests.session()处理网页cookie

# 实例化session。# session()中方法和requests()中一样# session.get() session.post()session = requests.session()# 使用session发送post请求获取cookie保存到本地session中。# 以人人网登录为例。post_url = "http://www.renren.com/PLogin...

2018-05-02 22:19:43 2245

原创 json简介load()loads()dump()dumps()

# -*- coding: utf-8 -*-"""JSON一种保存数据的格式。可以保存本地JSON文件，可以将JSON文件进行传输。通常将JSON成为轻量级传输方式。JSON文件组成{} # 代表对象，字典。[] # 代表列表。: # 代表键值对。, # 分隔两个部分。"""import jsonjson_str = '{"name": "tianyz", ...

2018-04-25 22:29:09 278

原创自然语言处理概括

文本挖掘：信息挖掘的一个研究分支，用于基于文本信息的只是发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术：文档聚类、文档分类和摘要抽取。自然语言处理：原理：形式化描述，数学模型算法化，程序化，实用化。常用中文分词：StanfordNLP汉语分词工具哈工大语言云庖丁解牛分词盘古分词 ICTCLAS汉语词法分析系统FudanNL...

2018-04-22 14:38:23 304

原创网络爬虫实例

"""淘宝商品信息定向爬取"""import requestsimport redef get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding retu...

2018-04-21 09:40:19 466

原创网络爬虫_re正则表达式

"""正则表达式re概念检索符合某个规则的字符串。通用的字符串表达框架。简洁表达一组字符串。常用表达文本类型的特征。同时查找或替换一组字符串。匹配字符串全部或部分。"""# --------------------------------------"""正则表达式语法常用操作符 . # 表示任何单字符...

2018-04-21 08:12:08 470

原创网络爬虫_BeautifulSoup

import requestsfrom bs4 import BeautifulSoupr = requests.get("https://www.python123.io/ws/demo.html")demo = r.text # demo获取url所有源代码# BeautifulSoup 解析网页源代码# 格式：BeautifulSoup('url', 'html....

2018-04-20 15:33:15 263

原创网络爬虫_requests

"""requests库，自动爬取HTML页面，自动网络请求提交。robots.txt协议，网络爬虫排除标准Beautiful soup解析HTML页面Project实战项目Re正则表达式Scrapy专业网络爬虫框架"""import requestsr = requests.get("http://www.baidu.com")print(r.status_code) # ...

2018-04-19 19:36:45 165

原创 python全排列，递归

"""全排列用递归方法全排列：1、列表只有一个元素[a]，它的全排列只有a。2、列表有两个元素[a, b]，它的全排列为[a, b], [b, a]： { 将第一个元素a固定，对b进行全排列得到[a, b]。将第一个元素与第二个元素交换得到[b, a]。将b固定，对a进行全排列，得到[b, a] }3、列表有三个元素[a, b, c] { 将a固定，对bc进行全排列{...

2018-04-19 19:36:01 2984 2

原创 python算法，排序

# 时间复杂度print("Hello world") # O(1)for i in range(n): print("Hello world") # O(n)for i in range(n): for j in range(n): print("Hello world") # O(n ** 2)for i in range(n): for j in ran...

2018-04-19 19:35:32 137

原创 python数据结构：栈，队列，二叉树

#### 栈class Stack(object): def __init__(self): self.__list = [] def push(self, item): self.__list.append(item) def pop(self): self.__list.pop() def peek(self):...

2018-04-19 19:35:00 340 1

原创 MySQL基本语法

一、基本命令： 1、启动服务以管理员身份运行cmd 格式：net start 服务名格式：net start mysql57 2、停止服务说明：管理员身份运行cmd 格式：net stop 服务名格式：net stop mysql57 3、链接数据库格式：mysql -u ...

2018-04-19 19:34:26 383

原创 python基础——类

''''' 面对对象创建类格式： class 类名(父类列表):#首字母大写属性行为 ''' #object:基类，所有类的父类，一般没有合适的父类就写object class Human(object): #定义属性（定义变量）（名词性属性） name = " " age = 0 height =...

2018-04-19 19:31:43 115

TobyTime