DragonDai666-CSDN博客

原创程序打包遇到的问题

将依赖文件放在程序目录下a = Analysis(['trip_popu.py'], pathex=['E:\\GitHub\\Zone\\Zone'], binaries=[], datas=[('abc.txt', '.')], hiddenimports=[], ...

2020-04-23 16:06:15 248

原创 firefox

firefox_profile = webdriver.FirefoxProfile()firefox_profile.set_preference('permissions.default.image', 2)#某些firefox只需要这个firefox_profile.set_preference('browser.migration.version', 9001)#部分需要加上这个禁...

2020-04-17 10:45:34 174

原创解压和压缩

import osimport timeimport shutila='D:/7-Zip/7z.exe' #7zip.exe路径b='' #待解压文件路径c='' #指定解压路径d='' #指定新的压缩路径def jieya(zip_exe_path,file_path,unzip...

2019-08-21 16:07:26 408

原创输出当前日期及之后一段日期

import datetime arr=[]# 现在的时间now = datetime.datetime.now()arr.append((str(now.strftime('%Y-%m-%d'))))# 递增的时间delta = datetime.timedelta(days=1)endnow = now + datetime.timedelta(days=15)end...

2019-07-30 17:15:20 253

原创把图片改名并分别存入不同的文件夹

import osfrom PIL import Imagespath=""d_path1=""+"\\"d_path2=""+"\\"d_path3=""+"\\"for maindir, subdir, file_name_list in os.walk(spath): # print("1:",maindir) #当前主目录 # print("2:",subdi...

2019-07-30 17:12:24 546

原创 scrapy爬取奇书网

spiders.py# -*- coding: utf-8 -*-import scrapy# 引入itemfrom ..items import BooksItemclass BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['qishu.cc'] start_urls = ['http...

2019-05-23 21:40:28 502

原创 scrapy爬取素材网

spiders.py# -*- coding: utf-8 -*-import scrapy# 引入数据模型类from ..items import ImgItemclass SucaiSpider(scrapy.Spider): name = 'sucai' allowed_domains = ['sc.chinaz.com'] start_urls = ['...

2019-05-23 21:33:57 310

原创 scrapy爬取 51job

spider.py# -*- coding: utf-8 -*-import scrapy# .. 上级目录 .当前目录# 从上级目录中的items文件中引入JobSpidererItem数据模型类from ..items import JobSpidererItemclass JobsSpider(scrapy.Spider): name = 'jobs' all...

2019-05-23 21:22:42 473

原创爬取淘宝美食

spider.pyimport refrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDr...

2019-05-19 10:54:50 266

原创 scrapy框架爬取电影天堂内容

dytt.py# -*- coding: utf-8 -*-import scrapyclass DyttSpider(scrapy.Spider): # 爬虫的名称：必须是唯一的 name = 'dytt' # 规定了可以爬取的域名 allowed_domains = ['ygdy8.net'] # 指定要爬取的第一个网址 start_ur...

2019-05-18 18:54:44 865

原创爬取天猫top100

# encoding:utf-8import requestsimport reimport jsonfrom multiprocessing import Pool # 多线程模块# 获取网页源代码def get_one_page(url): # 添加头信息 headers = {'User-Agent': 'Mozilla/5.0 (Windows ...

2019-05-18 18:44:30 383

原创存到mangoDB

import requestsimport datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientclient = MongoClient('localhost',27017)db = client.blog_databasecollection = db.bloglink = "....." ...

2019-05-11 10:48:53 229

原创爬取数据存到mysql数据库

import requestsfrom bs4 import BeautifulSoupimport MySQLdb conn= MySQLdb.connect(host='localhost' , user='root', passwd='root', db ='scraping')cur = conn.cursor()link = "http://www.santosta...

2019-05-11 10:41:00 946

原创人工处理验证码

1.获取验证码动态匹配码。我们可以定义一个get_si_code()函数，它会进入注册页面，从HTML代码中用re.search方法获取si_code_reg的值，最后返回这个值。def get_si_code(): # si_code是一个动态变化的参数 index_url = 'http://www.santostang.com/wp-login.php? a...

2019-05-11 10:28:48 1326

原创 beautifulsoup实践：房屋价格数据

import requestsfrom bs4 import BeautifulSoupimport time headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98Safari/537....

2019-05-11 10:18:16 214

原创电影天堂数据爬取

# coding: utf-8import requestsfrom lxml import etreeimport xlwtheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}# 1.urlurl = 'http://www....

2019-05-10 17:52:19 18218

原创 xpath的运用

# coding: utf-8import requestslxml 包专门用处理一些html和xml的打开cmd命令输入pip install lxml引入etree模块from lxml import etreexpath 一组特定的规则，可以根据特殊的语法结构，匹配网页中的数据// 从当前的标签开始查找@ 表示获取属性或者根据属性查找//a[@class=“...

2019-05-10 17:51:04 193

原创 jd_spider

# coding: utf-8 from selenium import webdriver import timedriver = webdriver.Firefox()driver.get('https://www.jd.com')time.sleep(2)driver.find_element_by_id('key').send_keys(u'笔记本电脑') ele = ...

2019-05-10 17:49:22 227

原创 selenium

# coding: utf-8# 打开cmd命令行输入pip install selenium 下载包# 从selenium中引入webdriverfrom selenium import webdriver# 引入时间模块import time# 1.创建浏览器对象，并打开浏览器driver = webdriver.Firefox()# 2.在浏览器中访问网址driver...

2019-05-10 17:40:00 183

原创爬取招聘网站

# coding: utf-8import requestsimport reimport xlwtclass ZLZP(object):'''http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京%2B上海%2B广州%2B深圳%2B杭州&kw=python'''def __init__(self): se...

2019-05-10 17:38:12 961

原创帖子信息爬取

# -*- coding: utf-8 -*-import requestsimport re‘’’(‘J-Dub’, ‘小吧主’, ‘13’, ‘有的人天之骄子，从选秀便是球队核心有的人甘作绿叶，一心一意干好自己的事有的人能力有限，最后只能被联盟淘汰而有的人虽有天赋，但是球队的处境让他无法让他的天赋得到兑现，而他们可能在离开球队后，便得到突猛进的发展，可能在同位置球员离开后成为球队...

2019-05-10 17:33:31 316

原创文件的写入

w+读写 r+读写 a+读写wb+读写二进制数据w模式：如果文件不存在，会自动创建文件，如果文件存在打开文件，并且一旦向文件中写入内容，原来的内容的将会被覆盖a模式：如果文件不存在，会自动创建文件，如果文件存在打开文件，并且会一直向文件中追加数据，不会将原来的数据覆盖r模式：不会自动创建文件，假设文件不存在，直接抛出异常(报错)，可以使用下面的方式做判断，有文件再打开...

2019-05-10 17:32:12 249

原创正则表达式的运用

coding: utf-8python 内置re模块，用来支持正则表达式import re正则表达式string = 'abccccccdedfdgbgds'1.构造正则表达式a.* 贪婪模式匹配到abbcdefggs全部a.*? 非贪婪模式匹配到a 尽可能少的匹配字符pattern = re.compile('a.*b')2.使用正则表达式，在大字符串中搜索数据ma...

2019-05-10 17:30:14 155

原创 json的运用

# coding:utf-8在python中发送请求下载requests包，使用requests发请求windows+r 输入cmd 回车打开命令行工具输入pip install requests输入pip list 查看已经安装过的包import requests# python内置的包，jsonimport jsonwhile True:print '*****...

2019-05-10 17:25:01 190

原创 cookies

import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}cookies = {'cookie': '....'}url = '...'r = ...

2019-05-01 21:09:06 171

转载 Sax

代码如下：import stringfrom xml.parsers.expat import ParserCreateclass DefaultSaxHandler(object):def start_element(self, name, attrs): self.element = name print('element: %s, attrs: %s' % (nam...

2019-04-30 21:54:28 119

DragonASDASD的博客