自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TobyTime

还是咸鱼,还望指点。

  • 博客(32)
  • 收藏
  • 关注

原创 把爵迹弄下来看看

import pdbimport requestsimport scheduleimport spacyimport timefrom lxml import etreedef text_info(url): ret = "" r = requests.get(url) content = r.content html = etree.HTML(content) text_info_xpath = html.xpath('//html/body/d.

2020-07-03 16:56:16 267

原创 github上拉去代码速度过慢的问题

使用socks5代理#useproxygitconfig--globalhttp.proxy'socks5://127.0.0.1:1080'gitconfig--globalhttps.proxy'socks5://127.0.0.1:1080'#unuseproxygitconfig--global--unsethttp.proxy...

2020-03-16 10:52:45 286

原创 vscode配置

{ "editor.minimap.enabled": false, "breadcrumbs.enabled": false, "python.linting.flake8Enabled": true, "python.linting.pylintEnabled": false, "[markdown]": { "editor.tab...

2020-01-03 00:15:48 200

原创 全国城市python-json格式

# -*- coding: utf-8 -*-"""PROVINCE 省份CITY 城市COUNTRY 国家"""PROVINCE = [u'\u5e7f\u4e1c', u'\u5317\u4eac', u'\u4e0a\u6d77', u'\u5929\u6d25', u'\u91cd\u5e86', u'\u5b89\u5fbd', u'\u798...

2019-07-25 16:14:15 4699

原创 kryo序列化方式测试

kryo序列化测试测试spark程序运行中对RDD进行操作,添加与不添加序列化在性能上的区别。区别包括占用内存大小,程序运行时间等。测试spark流程随机生成字符串,以空格分割成行,进行多次map遍历。对结果进行持久化,并保存成文件。case class DataCase(input: Int) // 一个简单的case class.val testNew2 = testRDD.f...

2019-07-02 18:41:04 678

原创 使用jmap出现的问题

使用jmap -heap查看详细信息报错[spark@cs01 ~]$ jmap -heap 24982Attaching to process ID 24982, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.151-b12using thread-...

2019-04-13 15:04:28 739

原创 Scala环境配置

下载二进制jdk和scala-2.12.8压缩包,配置环境变量到各个压缩包的bin下。打开终端,输入java -version检查java环境。javac -version检查java编译环境。scala -version检查scala环境。scala,java的CLASSPATH配置配置CLASSPATH,可以通过这个路径导入路径下的jar包。也可以将jar包复...

2019-04-10 11:57:03 109

原创 lxml一些函数说明

etree篇from lxml import etreehtml篇from lxml import htmlfromstring(content)如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset,对源码进行解码。<meta http-equiv="content-type" ...

2019-03-07 10:30:12 461

原创 正则表达式稍微高级点的用法,不断更新。

import restr_ = "(x)abc ()def (x)ghi"print re.findall("\(x\)(.*?)(?=\(\)|$|\(x\))", str_)# >>> ['abc ', 'ghi']# 匹配所有勾选过的内容。直到下一个括号或者空括号或者行尾。  1. (pattern)    匹配pattern并获取这一匹配。 ...

2019-02-13 17:09:51 384

原创 SQL,Redis,python操作

§ redisimportimport redisfrom redis.sentinel import Sentinelredis连接方式redis_sentinel = Sentinel([(host_1, port_1), (host_2, port_2)])r = redis_sentinel.master_for("master_test", db=0, max_c...

2019-01-18 10:17:56 147

原创 python importlib

# -*- coding: utf-8 -*-from importlib import import_moduleimport pdbmodule = import_module("test2")test_class = getattr(module, "Test") # 类test_instance = test_class() # 实例化print dir(test_in...

2019-01-03 14:14:20 206

原创 python模块os和sys

# -*- coding: utf-8 -*-import osimport sys"""§ os"""os.name # 返回当前操作系统内核。# windows返回nt内核,linux返回posix内核。os.environ # 返回当前环境变量,全部 <type 'dict'>。os.getenv() # 获得环境变量 os.getenv("PYTHO...

2018-12-06 18:35:02 145

原创 pip使用国内源

阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://py...

2018-10-20 10:17:49 1421 1

原创 python多线程

# -*- coding:utf-8 -*-import time# import threadimport threadingdef count_time(func): def inner(*args, **kwargs): start_time = time.time() ret = func(*args, **kwargs) ...

2018-09-29 09:26:39 166

原创 selenium常用方法 不断更新

添加chromedriver如果chromedriver在环境变量里,不用添加chromedriver的路径。driver = webdriver.Chrome()driver = webdriver.Chrome(chromedriver_path)常用函数back() # 返回/后退close() # 关闭当前标签current_url # 当前标签的网址 f...

2018-09-12 11:05:21 505

原创 xpath对当前节点定位

ele = body.xpath('//*[@id="shareholderInfo"]/tbody/tr[1]/td[2]')[0]print dir(ele)ii = ele.iterancestors()list_ = []list_.append(ele.tag)print ele.tagfor i in ii: print i.tag list_.appen...

2018-09-07 15:55:30 1801

原创 Phantomjs和selenium安装方法

下载 安装http://phantomjs.org/download.html解压 添加bin目录到环境变量C:\phantomjs-2.1.1-windows\bin cmd powershell里输入phantomjs -v返回正确的版本号说明安装成功 自动化测试工具selenium安装方法 pip安装最新版本 3.0.1版本seleniumpip in...

2018-08-31 23:41:55 334

原创 xpath的使用方法, 爬虫实例

# -*- coding:utf-8 -*-""" 爬虫 创业邦 创业公司信息爬取网页url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'爬取页面中的创业公司,融资阶段,创业领域,成立时间和创业公司的链接信息。使用到requests, json, codecs, lxml等库requests用于访问页面,获取页面的源代码jo...

2018-08-26 10:19:29 1856 1

原创 lxml.xpath用法

# -*- coding: utf-8 -*-import requestsfrom lxml import etree"""url = 'http://www.baidu.com'r = requests.get(url, timeout=5)r.encoding = r.apparent_encodingprint r.status_codetext = r.text...

2018-07-30 14:36:04 906

原创 python操作excel工作表

"""python操作excel 写入ecxel"""## ## ## ## ## ## ## ## ## ## ## ### -*- coding:utf-8 -*-import xlrdfile_path = r'C:\Users\poseidon\Desktop\点名册.xls'def excel_test(): path = unicode(file_path, ...

2018-06-01 13:41:03 954

原创 requests.session()处理网页cookie

# 实例化session。# session()中方法和requests()中一样# session.get() session.post()session = requests.session()# 使用session发送post请求获取cookie保存到本地session中。# 以人人网登录为例。post_url = "http://www.renren.com/PLogin...

2018-05-02 22:19:43 2240

原创 json简介load()loads()dump()dumps()

# -*- coding: utf-8 -*-"""JSON一种保存数据的格式。可以保存本地JSON文件,可以将JSON文件进行传输。通常将JSON成为轻量级传输方式。JSON文件组成{} # 代表对象,字典。[] # 代表列表。: # 代表键值对。, # 分隔两个部分。"""import jsonjson_str = '{"name": "tianyz", ...

2018-04-25 22:29:09 271

原创 自然语言处理概括

文本挖掘:信息挖掘的一个研究分支,用于基于文本信息的只是发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术:文档聚类、文档分类和摘要抽取。自然语言处理:原理:形式化描述,数学模型算法化,程序化,实用化。常用中文分词:StanfordNLP汉语分词工具哈工大语言云庖丁解牛分词盘古分词 ICTCLAS汉语词法分析系统FudanNL...

2018-04-22 14:38:23 297

原创 网络爬虫实例

"""淘宝商品信息定向爬取"""import requestsimport redef get_html_text(url):    try:        r = requests.get(url, timeout=30)        r.raise_for_status()        r.encoding = r.apparent_encoding        retu...

2018-04-21 09:40:19 454

原创 网络爬虫_re正则表达式

"""正则表达式re概念 检索符合某个规则的字符串。 通用的字符串表达框架。 简洁表达一组字符串。常用 表达文本类型的特征。 同时查找或替换一组字符串。 匹配字符串全部或部分。"""# --------------------------------------"""正则表达式语法常用操作符 . # 表示任何单字符...

2018-04-21 08:12:08 456

原创 网络爬虫_BeautifulSoup

import requestsfrom bs4 import BeautifulSoupr = requests.get("https://www.python123.io/ws/demo.html")demo = r.text # demo获取url所有源代码# BeautifulSoup 解析网页源代码# 格式:BeautifulSoup('url', 'html....

2018-04-20 15:33:15 256

原创 网络爬虫_requests

"""requests库,自动爬取HTML页面,自动网络请求提交。robots.txt协议,网络爬虫排除标准Beautiful soup解析HTML页面Project实战项目Re正则表达式Scrapy专业网络爬虫框架"""import requestsr = requests.get("http://www.baidu.com")print(r.status_code) # ...

2018-04-19 19:36:45 162

原创 python全排列,递归

"""全排列 用递归方法全排列:1、列表只有一个元素[a],它的全排列只有a。2、列表有两个元素[a, b],它的全排列为[a, b], [b, a]:    { 将第一个元素a固定,对b进行全排列得到[a, b]。    将第一个元素与第二个元素交换得到[b, a]。    将b固定,对a进行全排列,得到[b, a] }3、列表有三个元素[a, b, c]    { 将a固定,对bc进行全排列{...

2018-04-19 19:36:01 2970 2

原创 python算法,排序

# 时间复杂度print("Hello world")  # O(1)for i in range(n):    print("Hello world")  # O(n)for i in range(n):    for j in range(n):        print("Hello world")  # O(n ** 2)for i in range(n):    for j in ran...

2018-04-19 19:35:32 136

原创 python数据结构:栈,队列,二叉树

#### 栈class Stack(object): def __init__(self): self.__list = [] def push(self, item): self.__list.append(item) def pop(self): self.__list.pop() def peek(self):...

2018-04-19 19:35:00 329 1

原创 MySQL基本语法

一、基本命令:    1、启动服务        以管理员身份运行cmd        格式:net start 服务名        格式:net start mysql57    2、停止服务        说明:管理员身份运行cmd        格式:net stop 服务名        格式:net stop mysql57    3、链接数据库        格式:mysql -u ...

2018-04-19 19:34:26 370

原创 python基础——类

''''' 面对对象 创建类 格式: class 类名(父类列表):#首字母大写 属性 行为 ''' #object:基类,所有类的父类,一般没有合适的父类就写object class Human(object): #定义属性(定义变量)(名词性属性) name = " " age = 0 height =...

2018-04-19 19:31:43 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除