2019年09月_MengDiLI

原创自制成语接龙

都是用的基础的语法，很好理解前提先爬取一些成语，我爬的搜出来的这些，代码在爬取一些成语爬出来的txt放在同级目录下面就好了import randomdef get_list(): with open("chengyu.txt", "r+", encoding="utf-8") as f: content = f.read() url_list ...

2019-09-29 15:25:08 1153

原创爬取一些成语

import requestsimport jsonimport refrom fake_useragent import UserAgentheaders= {'User-Agent':str(UserAgent().chrome)}for page in range(0,43381,30): url='https://sp0.baidu.com/8aQDcjqpAAV3otq...

2019-09-29 15:21:44 454

原创随机生成useragent

from fake_useragent import UserAgentua = UserAgent()useragent=ua.chromeheaders={ 'User-Agent':useragent}

2019-09-29 10:30:47 1522

原创时间格式化

import timeprint(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))print(time.strftime('%Y-%m-%d %H:%M:%S'))print(time.time())print(time.localtime(time.time()))

2019-09-29 10:21:05 97

原创 python的txt文件存取

#读文件with open("xiaoqu_url.txt", "r+", encoding="utf-8") as f: content=f.read() url_list=content[:-1].split(',')#写文件with open("xiaoqu_url.txt", "a+", encoding="utf-8") as f:...

2019-09-29 10:19:58 288

原创对列表内元素去重

b=[11,1,1,1,222,3,3,3,4,4,5]a=list(set(b))print(a)[1, 3, 4, 5, 11, 222]

2019-09-29 10:16:36 349

原创 if ...if和if...elif区别

我一直以为写if还是elif都是一样的，今天没事做了下试验，证明凡是存在的都是合理的。。。。。不会存在无谓的东西。通过运行下面的代码我可以看出，if…elif的逻辑是，程序先走if，能走就走，走完就不走elif了，走不通的情况才走elif。比如当x=7的时候，符合if下面的>5，运行print(‘大于5’,a)，然后就没有然后了，即使也符合elif下面的<8，也是看不见看不见。。i...

2019-09-24 15:35:30 30481 2

原创练习的多种数据可视化方式

记录一下，以便参考#导入要用到的模块import pandas as pd #数据框操作import matplotlib.pyplot as plt #绘图import matplotlib as mpl #配置字体import numpy as npimport seaborn as snsmpl.rcParams['font.sans-serif'] = ['SimHei'...

2019-09-22 17:06:20 373

原创简单的51job数据可视化

爬虫代码在上一个博客：https://blog.csdn.net/lipachong/article/details/101155790#导入要用到的模块import pandas as pd #数据框操作import matplotlib.pyplot as plt #绘图import matplotlib as mpl #配置字体mpl.rcParams['font.sans-...

2019-09-22 13:47:42 1072

原创爬取51job准备练习数据可视化

import requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport randomimport timefrom lxml import etreefrom pymysql import *def get_list_url(url): ua = UserAgent() ...

2019-09-22 13:46:58 1098 2

原创 python计算字符在字符串中出现的次数

python计算所有字符在字符串中各自出现的次数1from collections import Counterstr='1212jisajikodsakdokoakso'counts=Counter(str)print(counts)2message='Thdsaa' count={} for character in message: count.setdefau...

2019-09-20 15:26:55 6104

原创 xpath的使用实例

xpath的使用实例from lxml import etreeurl='https://www.cnblogs.com/lei0213/p/7506130.html'data=requests.get(url).texth=etree.HTML(data)print(h)#href需要@href，text需要text()html_data = h.xpath('//*[@id="b...

2019-09-19 13:37:34 1543 3

原创 selenium获取cookie并添加、requests处理cookie

import datetimefrom pymysql import *from bs4 import BeautifulSoupimport requestsimport jsonimport zlibfrom urllib import requestimport sysimport randomfrom selenium import webdriverimport r...

2019-09-19 11:20:14 1170

原创 python BlockingScheduler定时任务

【代码】python BlockingScheduler定时任务。

2019-09-18 11:59:55 24278 5

原创 selenium元素等待

1，强制等待time.sleep(3)2，隐式等待隐式等待作用全局driver，所以脚本中设置一次即可。作用是设置超时时间，也就是说当selenium定位某元素时，如果没有定位到，脚本会自动默认休眠一下，然后再去尝试定位，直到定位到继续执行或者超出传入的等待时间抛出异常（我设置的10秒）。用这种等待方式的好处是首先不会因为页面没有加载完成导致的定位不到元素报错，其次是不会让程序傻傻的一...

2019-09-17 14:58:26 135

原创 selenium切换到新打开的网页

#打印当前所有窗口句柄print(driver.window_handles)#默认关闭第一个窗口，不关的话可能浏览器开很多窗口，电脑卡了，所以每打开一个，就关掉前一个driver.close()#切换窗口n = driver.window_handles # 获取当前页所有窗口句柄print(n)driver.switch_to.window(n[0])time.sleep(3...

2019-09-17 14:34:15 3421

原创 scrapy 使用

spider脚本(对应我的anjuke_spider.py)：1.不需要从列表页带数据，也就是说只需要得到列表页列表url时：（列表页如下）# -*- coding: utf-8 -*-import scrapyfrom anjuke.items import AnjukeItemimport reclass AnjukeSpiderSpider(scrapy.Spider):...

2019-09-15 15:13:37 181

原创 python 处理.docx文件

.docx实际上是一个zip的压缩文件，其中Word文件的正文内容被保持在word/document.xml中。具体代码如下：from zipfile import ZipFilefrom bs4 import BeautifulSoupimport osfile_dir='E:\数据\word'for root, dirs, files in os.walk(file_dir): ...

2019-09-03 16:32:13 755

李孟笛的博客