python
AuroraPetard
这个作者很懒,什么都没留下…
展开
-
selenium设置等待时间
当写好selenium代码后运行发行无法定位元素,则这个时候就要考虑程序运行太快导致 网页元素标签之类的还未加载成功网速差劲所以说要设置等待时间,等待元素加载出来强制等待 即 sleep time.sleep(3) 显性的设置等待时间 有点傻显性等待WebDriverWait(driver,20,0.5).until(expected_conditions.prosence_of_element_located(locator))selenium 中的wait模块的WebDriver原创 2020-12-19 23:52:29 · 671 阅读 · 1 评论 -
python切片
1. list列表a=[1,2,3,4,5,6,7,8]# 取出对应下标的值,下标从0开始a[i]# 从下标为1开始包括本身到最后 下标从零开始a[1:] ----> [2, 3, 4, 5, 6, 7, 8]# 取几个值,从前往后取值的个数,-1为最后一个a[:4] -----> [1,2,3,4]a[:-1] ----> [1,2,3,4,5,6,7,8]# 切片截取 从下标为1到下标为4的 左闭右开 下标从0开始a[1:4] ----> [2,3,原创 2020-07-19 21:21:35 · 253 阅读 · 0 评论 -
python TypeError: 'list' object is not callable
1 第一种,纯粹是自己给自己找麻烦 和系统变量重名了,即str list为系统关键字 ,改一下变量名就可以了2 我就是遇到的第二种,敲代码比较困,一不小心 写错了,找半天没看出来,map(lambda fields: (fields(3), 1)).reduceByKey(lambda x, y: x + y).collect()map(lambda fields: (fields[3...原创 2019-03-07 22:21:22 · 5657 阅读 · 0 评论 -
python负数列表
一句话,python负数从右往左-1 开始 从左往右0开始例如列表:aaa = [1, 3, 4] 1-对Python来说,负数索引表示从右边往左数,最右边的元素的索引为-1,倒数第二个元素为-2.,。。。aaa[-3]=aaa[0]=1aaa[-2]=aaa[1]=3aaa[-1]=aaa[2]=4小于-3,大于2的索引会报错...原创 2019-03-07 22:58:31 · 3553 阅读 · 0 评论 -
简单版数据可视化分析
数据下载: http://59.80.44.50/files.grouplens.org/datasets/movielens/ml-1m.zipimport matplotlib.pyplot as pltimport timeimport numpy as npfrom pyspark import SparkContextsc = SparkContext("local...原创 2019-04-21 19:15:41 · 338 阅读 · 0 评论 -
python操作excel
python操作excel,主要用到两个库 xlrd 读取excel,xlwt写入import xlrdimport sysimport osdef read_excel(): # 读取某个目录下的指定格式xls的文件 # os.listdir列出目录下的文件 # 指定参数 采用sys.argv[1],注意argv[0] 为脚本的名字 file_l...原创 2019-06-02 11:35:52 · 186 阅读 · 0 评论 -
python 忽略字符串双引号内的逗号
原始a = '11-BETA-HSD3,100174880,"Anemia, Hemolytic",MESH:D000743,,"Water Pollutants, Chemical",4.49,,22425172'需要的结果['11-BETA-HSD3', '100174880', '"Anemia, Hemolytic"', 'MESH:D000743', '', '"Water P...原创 2019-08-08 23:08:45 · 1375 阅读 · 0 评论 -
python常见包介绍numpy pandas matplotlib faker selenium scrapy etc
python常见包介绍numpy pandas matplotlib faker selenium scrapy etc1 numpy 数值型矩阵计算 公式等 ml少不了2 pnadas 处理格式化数据excel等 比excel好用多了3 matplotlib 画图神器 此三个可以称其为三剑客4 selenium 模拟调用浏览器进行自动化测试 爬虫5 scrapy 爬虫大轮子...原创 2019-08-06 23:23:20 · 409 阅读 · 0 评论 -
python在字符串中引用变量
1 +name='lisi'print('you name'+name)2%格式化输出 类是与Cname='lisi'age=25price=345.78print('name is%s'%(name))print('i am %d'%(age)+'year')3 format函数变量较多的情况下使用name = 'zhangsan' ...原创 2019-08-06 23:36:14 · 783 阅读 · 0 评论 -
python matplotlib 可视化与一些分析技巧
首先说一下直方图和柱形图的区别,看起来差不多,都是柱图,但区别就在这些住上面,直方图表达的数据分布,比如用户年龄分布,主要是想看一些那些年龄段的人数,比较多就可以,采用直方图,再者 年龄连续性太强画出图,都连在一起了而柱形图就是反映的大小,当前住的数量有多少,直方图主要反映分布,如年龄 柱形图主要用来比较大小 一般用于分段比较明显的地方 如部门A和部门B 衣物等直方图 :...原创 2019-03-09 01:09:26 · 360 阅读 · 0 评论 -
python中安装 scrapy selenium pyecharts等常见第三方库
pip install echarts-countries-pypkgpip install echarts-china-provinces-pypkgpip install echarts-china-cities-pypkgpip install echarts-china-counties-pypkgpip install echarts-china-misc-pypkg...原创 2019-03-08 19:07:17 · 620 阅读 · 0 评论 -
zhihu reptile
# -*- coding: utf-8 -*-import jsonimport scrapyfrom scrapy import Requestfrom testzh.items import TestzhItemclass ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains原创 2018-04-26 21:24:09 · 414 阅读 · 0 评论 -
pycharm selenium unresolved reference selenium
命令行pip install selenium 安装了selenium。但是使用pycharm 新建一个测试项目后并新建一个test01.py 文件在文件中导入selenium 包,from selenium import webdriver 提示报错 Unresolved reference 'webdriver'。就是pycharm 找不到selenium模块导致的。不熟悉pychar原创 2018-03-09 22:54:38 · 1739 阅读 · 0 评论 -
pycharm 使用anaconda为默认环境
创建工程时,选择已存在的环境(不要选择虚拟环境,虽然安全,但很慢)添加环境,在 anaconda3/bin/python3.6即d:/ananconda/python.exe sh或-普通可执行文件=exe并且在安装anaconda时,如果原系统中已存在python则anaconda path会被放到开头如果不放到开头则不能用,并且从第一个路径开始寻找,找到就停止,所以pip 为ana...原创 2018-03-10 00:04:06 · 5643 阅读 · 0 评论 -
request re 250
import refrom multiprocessing.pool import Poolimport requestsfrom requests import RequestExceptiondef get_one_page(url): try: response = requests.get(url) if response.status原创 2018-03-16 21:32:24 · 172 阅读 · 0 评论 -
lagou reptile
import requests # 网络请求import reimport timeimport random# post的网址url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0'# 反爬措施header =原创 2018-04-05 23:11:38 · 409 阅读 · 0 评论 -
pip conda anaconda ipython
pip 是python包自带的包管理工具用来安装卸载一些包比如说 selenium scrapy但pip 有一些缺点 所以用conda来补充 conda基本可以替代pipconda install xxxconda update(upgrade) pythonconda update condaconda update anaconda 全局更新conda upgrade ...原创 2018-04-04 22:26:07 · 290 阅读 · 0 评论 -
pycharm indexing。。。。。。。。。。
尤其是将anaconda设置为开发环境,那index速度更感人!!! 又没有固态!!so 第一种方法 In pycharm, go to the "File" on the left top, then select "invalidate caches/restart...", and press "invalidate and restart". from stackoverfl原创 2018-04-09 22:10:09 · 5962 阅读 · 0 评论 -
scrapy
import scrapyclass CnblSpider(scrapy.Spider): name = 'cnbl' allowed_domains = ['cnblogs.com'] start_urls = ['http://cnblogs.com/pick/#p%s' % p for p in range(1, 21)] def parse(self原创 2018-03-27 23:00:14 · 163 阅读 · 0 评论 -
爬虫
1 常用的网页解析 re xpath css bs lxml一般比较喜欢用re 直接 pattern=re.complie('表达式',re.S)re.findall(pattern,html)xpath //div[@class="fdg"]/div/a/text().extract_first()//div[@class="gfwseg"]]/a/@hrefcss a::t原创 2018-03-31 10:53:40 · 220 阅读 · 0 评论 -
scrapy爬数据到mongodb
首先创建一个数据库use learn 然后插入点数据,要不然看不到表db.learn.insert({"test":'1'})然后创建集合类似于表db.createCollection(name)然后在setting中ITEM_PIPELINES = { 'quote.pipelines.QuotePipeline': 300,}MONGODB_HOST原创 2018-04-05 22:01:31 · 300 阅读 · 0 评论 -
scrapy 常用命令行命令
scrapy startproject xxxscrapy genspider xxx xxx.comscrapy check 检查是否有语法错误scrapy fetch 获取网页打印输出scrapy view 下载保存成一个文件,ajax异步不行scrapy shell url view(response) response.text.css etcscrapy runs原创 2018-04-05 22:51:11 · 300 阅读 · 0 评论 -
selenium无法启动启动firefox
新版firefox无法直接通过from selenium import webdriverbrowser=webdriver.Firefox()调用需要在https://github.com/mozilla/geckodriver/releases下载相应的包放在任意系统路径中,即可解决原创 2018-03-09 08:36:43 · 1056 阅读 · 0 评论