- 博客(32)
- 收藏
- 关注
原创 把爵迹弄下来看看
import pdbimport requestsimport scheduleimport spacyimport timefrom lxml import etreedef text_info(url): ret = "" r = requests.get(url) content = r.content html = etree.HTML(content) text_info_xpath = html.xpath('//html/body/d.
2020-07-03 16:56:16 267
原创 github上拉去代码速度过慢的问题
使用socks5代理#useproxygitconfig--globalhttp.proxy'socks5://127.0.0.1:1080'gitconfig--globalhttps.proxy'socks5://127.0.0.1:1080'#unuseproxygitconfig--global--unsethttp.proxy...
2020-03-16 10:52:45 286
原创 vscode配置
{ "editor.minimap.enabled": false, "breadcrumbs.enabled": false, "python.linting.flake8Enabled": true, "python.linting.pylintEnabled": false, "[markdown]": { "editor.tab...
2020-01-03 00:15:48 200
原创 全国城市python-json格式
# -*- coding: utf-8 -*-"""PROVINCE 省份CITY 城市COUNTRY 国家"""PROVINCE = [u'\u5e7f\u4e1c', u'\u5317\u4eac', u'\u4e0a\u6d77', u'\u5929\u6d25', u'\u91cd\u5e86', u'\u5b89\u5fbd', u'\u798...
2019-07-25 16:14:15 4699
原创 kryo序列化方式测试
kryo序列化测试测试spark程序运行中对RDD进行操作,添加与不添加序列化在性能上的区别。区别包括占用内存大小,程序运行时间等。测试spark流程随机生成字符串,以空格分割成行,进行多次map遍历。对结果进行持久化,并保存成文件。case class DataCase(input: Int) // 一个简单的case class.val testNew2 = testRDD.f...
2019-07-02 18:41:04 678
原创 使用jmap出现的问题
使用jmap -heap查看详细信息报错[spark@cs01 ~]$ jmap -heap 24982Attaching to process ID 24982, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.151-b12using thread-...
2019-04-13 15:04:28 739
原创 Scala环境配置
下载二进制jdk和scala-2.12.8压缩包,配置环境变量到各个压缩包的bin下。打开终端,输入java -version检查java环境。javac -version检查java编译环境。scala -version检查scala环境。scala,java的CLASSPATH配置配置CLASSPATH,可以通过这个路径导入路径下的jar包。也可以将jar包复...
2019-04-10 11:57:03 109
原创 lxml一些函数说明
etree篇from lxml import etreehtml篇from lxml import htmlfromstring(content)如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset,对源码进行解码。<meta http-equiv="content-type" ...
2019-03-07 10:30:12 461
原创 正则表达式稍微高级点的用法,不断更新。
import restr_ = "(x)abc ()def (x)ghi"print re.findall("\(x\)(.*?)(?=\(\)|$|\(x\))", str_)# >>> ['abc ', 'ghi']# 匹配所有勾选过的内容。直到下一个括号或者空括号或者行尾。 1. (pattern) 匹配pattern并获取这一匹配。 ...
2019-02-13 17:09:51 384
原创 SQL,Redis,python操作
§ redisimportimport redisfrom redis.sentinel import Sentinelredis连接方式redis_sentinel = Sentinel([(host_1, port_1), (host_2, port_2)])r = redis_sentinel.master_for("master_test", db=0, max_c...
2019-01-18 10:17:56 147
原创 python importlib
# -*- coding: utf-8 -*-from importlib import import_moduleimport pdbmodule = import_module("test2")test_class = getattr(module, "Test") # 类test_instance = test_class() # 实例化print dir(test_in...
2019-01-03 14:14:20 206
原创 python模块os和sys
# -*- coding: utf-8 -*-import osimport sys"""§ os"""os.name # 返回当前操作系统内核。# windows返回nt内核,linux返回posix内核。os.environ # 返回当前环境变量,全部 <type 'dict'>。os.getenv() # 获得环境变量 os.getenv("PYTHO...
2018-12-06 18:35:02 145
原创 pip使用国内源
阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://py...
2018-10-20 10:17:49 1421 1
原创 python多线程
# -*- coding:utf-8 -*-import time# import threadimport threadingdef count_time(func): def inner(*args, **kwargs): start_time = time.time() ret = func(*args, **kwargs) ...
2018-09-29 09:26:39 166
原创 selenium常用方法 不断更新
添加chromedriver如果chromedriver在环境变量里,不用添加chromedriver的路径。driver = webdriver.Chrome()driver = webdriver.Chrome(chromedriver_path)常用函数back() # 返回/后退close() # 关闭当前标签current_url # 当前标签的网址 f...
2018-09-12 11:05:21 505
原创 xpath对当前节点定位
ele = body.xpath('//*[@id="shareholderInfo"]/tbody/tr[1]/td[2]')[0]print dir(ele)ii = ele.iterancestors()list_ = []list_.append(ele.tag)print ele.tagfor i in ii: print i.tag list_.appen...
2018-09-07 15:55:30 1801
原创 Phantomjs和selenium安装方法
下载 安装http://phantomjs.org/download.html解压 添加bin目录到环境变量C:\phantomjs-2.1.1-windows\bin cmd powershell里输入phantomjs -v返回正确的版本号说明安装成功 自动化测试工具selenium安装方法 pip安装最新版本 3.0.1版本seleniumpip in...
2018-08-31 23:41:55 334
原创 xpath的使用方法, 爬虫实例
# -*- coding:utf-8 -*-""" 爬虫 创业邦 创业公司信息爬取网页url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'爬取页面中的创业公司,融资阶段,创业领域,成立时间和创业公司的链接信息。使用到requests, json, codecs, lxml等库requests用于访问页面,获取页面的源代码jo...
2018-08-26 10:19:29 1856 1
原创 lxml.xpath用法
# -*- coding: utf-8 -*-import requestsfrom lxml import etree"""url = 'http://www.baidu.com'r = requests.get(url, timeout=5)r.encoding = r.apparent_encodingprint r.status_codetext = r.text...
2018-07-30 14:36:04 906
原创 python操作excel工作表
"""python操作excel 写入ecxel"""## ## ## ## ## ## ## ## ## ## ## ### -*- coding:utf-8 -*-import xlrdfile_path = r'C:\Users\poseidon\Desktop\点名册.xls'def excel_test(): path = unicode(file_path, ...
2018-06-01 13:41:03 954
原创 requests.session()处理网页cookie
# 实例化session。# session()中方法和requests()中一样# session.get() session.post()session = requests.session()# 使用session发送post请求获取cookie保存到本地session中。# 以人人网登录为例。post_url = "http://www.renren.com/PLogin...
2018-05-02 22:19:43 2240
原创 json简介load()loads()dump()dumps()
# -*- coding: utf-8 -*-"""JSON一种保存数据的格式。可以保存本地JSON文件,可以将JSON文件进行传输。通常将JSON成为轻量级传输方式。JSON文件组成{} # 代表对象,字典。[] # 代表列表。: # 代表键值对。, # 分隔两个部分。"""import jsonjson_str = '{"name": "tianyz", ...
2018-04-25 22:29:09 271
原创 自然语言处理概括
文本挖掘:信息挖掘的一个研究分支,用于基于文本信息的只是发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术:文档聚类、文档分类和摘要抽取。自然语言处理:原理:形式化描述,数学模型算法化,程序化,实用化。常用中文分词:StanfordNLP汉语分词工具哈工大语言云庖丁解牛分词盘古分词 ICTCLAS汉语词法分析系统FudanNL...
2018-04-22 14:38:23 297
原创 网络爬虫实例
"""淘宝商品信息定向爬取"""import requestsimport redef get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding retu...
2018-04-21 09:40:19 454
原创 网络爬虫_re正则表达式
"""正则表达式re概念 检索符合某个规则的字符串。 通用的字符串表达框架。 简洁表达一组字符串。常用 表达文本类型的特征。 同时查找或替换一组字符串。 匹配字符串全部或部分。"""# --------------------------------------"""正则表达式语法常用操作符 . # 表示任何单字符...
2018-04-21 08:12:08 456
原创 网络爬虫_BeautifulSoup
import requestsfrom bs4 import BeautifulSoupr = requests.get("https://www.python123.io/ws/demo.html")demo = r.text # demo获取url所有源代码# BeautifulSoup 解析网页源代码# 格式:BeautifulSoup('url', 'html....
2018-04-20 15:33:15 256
原创 网络爬虫_requests
"""requests库,自动爬取HTML页面,自动网络请求提交。robots.txt协议,网络爬虫排除标准Beautiful soup解析HTML页面Project实战项目Re正则表达式Scrapy专业网络爬虫框架"""import requestsr = requests.get("http://www.baidu.com")print(r.status_code) # ...
2018-04-19 19:36:45 162
原创 python全排列,递归
"""全排列 用递归方法全排列:1、列表只有一个元素[a],它的全排列只有a。2、列表有两个元素[a, b],它的全排列为[a, b], [b, a]: { 将第一个元素a固定,对b进行全排列得到[a, b]。 将第一个元素与第二个元素交换得到[b, a]。 将b固定,对a进行全排列,得到[b, a] }3、列表有三个元素[a, b, c] { 将a固定,对bc进行全排列{...
2018-04-19 19:36:01 2970 2
原创 python算法,排序
# 时间复杂度print("Hello world") # O(1)for i in range(n): print("Hello world") # O(n)for i in range(n): for j in range(n): print("Hello world") # O(n ** 2)for i in range(n): for j in ran...
2018-04-19 19:35:32 136
原创 python数据结构:栈,队列,二叉树
#### 栈class Stack(object): def __init__(self): self.__list = [] def push(self, item): self.__list.append(item) def pop(self): self.__list.pop() def peek(self):...
2018-04-19 19:35:00 329 1
原创 MySQL基本语法
一、基本命令: 1、启动服务 以管理员身份运行cmd 格式:net start 服务名 格式:net start mysql57 2、停止服务 说明:管理员身份运行cmd 格式:net stop 服务名 格式:net stop mysql57 3、链接数据库 格式:mysql -u ...
2018-04-19 19:34:26 370
原创 python基础——类
''''' 面对对象 创建类 格式: class 类名(父类列表):#首字母大写 属性 行为 ''' #object:基类,所有类的父类,一般没有合适的父类就写object class Human(object): #定义属性(定义变量)(名词性属性) name = " " age = 0 height =...
2018-04-19 19:31:43 114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人