自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 程序打包遇到的问题

将依赖文件放在程序目录下a = Analysis(['trip_popu.py'], pathex=['E:\\GitHub\\Zone\\Zone'], binaries=[], datas=[('abc.txt', '.')], hiddenimports=[], ...

2020-04-23 16:06:15 248

原创 firefox

firefox_profile = webdriver.FirefoxProfile()firefox_profile.set_preference('permissions.default.image', 2)#某些firefox只需要这个firefox_profile.set_preference('browser.migration.version', 9001)#部分需要加上这个禁...

2020-04-17 10:45:34 174

原创 解压和压缩

import osimport timeimport shutila='D:/7-Zip/7z.exe' #7zip.exe路径b='' #待解压文件路径c='' #指定解压路径d='' #指定新的压缩路径def jieya(zip_exe_path,file_path,unzip...

2019-08-21 16:07:26 408

原创 输出当前日期及之后一段日期

import datetime arr=[]# 现在的时间now = datetime.datetime.now()arr.append((str(now.strftime('%Y-%m-%d'))))# 递增的时间delta = datetime.timedelta(days=1)endnow = now + datetime.timedelta(days=15)end...

2019-07-30 17:15:20 253

原创 把图片改名并分别存入不同的文件夹

import osfrom PIL import Imagespath=""d_path1=""+"\\"d_path2=""+"\\"d_path3=""+"\\"for maindir, subdir, file_name_list in os.walk(spath): # print("1:",maindir) #当前主目录 # print("2:",subdi...

2019-07-30 17:12:24 546

原创 scrapy爬取奇书网

spiders.py# -*- coding: utf-8 -*-import scrapy# 引入itemfrom ..items import BooksItemclass BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['qishu.cc'] start_urls = ['http...

2019-05-23 21:40:28 502

原创 scrapy爬取 素材网

spiders.py# -*- coding: utf-8 -*-import scrapy# 引入数据模型类from ..items import ImgItemclass SucaiSpider(scrapy.Spider): name = 'sucai' allowed_domains = ['sc.chinaz.com'] start_urls = ['...

2019-05-23 21:33:57 310

原创 scrapy爬取 51job

spider.py# -*- coding: utf-8 -*-import scrapy# .. 上级目录 .当前目录# 从上级目录中的items文件中引入JobSpidererItem数据模型类from ..items import JobSpidererItemclass JobsSpider(scrapy.Spider): name = 'jobs' all...

2019-05-23 21:22:42 473

原创 爬取淘宝美食

spider.pyimport refrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDr...

2019-05-19 10:54:50 266

原创 scrapy框架爬取电影天堂内容

dytt.py# -*- coding: utf-8 -*-import scrapyclass DyttSpider(scrapy.Spider): # 爬虫的名称:必须是唯一的 name = 'dytt' # 规定了可以爬取的域名 allowed_domains = ['ygdy8.net'] # 指定要爬取的第一个网址 start_ur...

2019-05-18 18:54:44 865

原创 爬取天猫top100

# encoding:utf-8import requestsimport reimport jsonfrom multiprocessing import Pool # 多线程模块# 获取网页源代码def get_one_page(url): # 添加头信息 headers = {'User-Agent': 'Mozilla/5.0 (Windows ...

2019-05-18 18:44:30 383

原创 存到mangoDB

import requestsimport datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientclient = MongoClient('localhost',27017)db = client.blog_databasecollection = db.bloglink = "....." ...

2019-05-11 10:48:53 229

原创 爬取数据存到mysql数据库

import requestsfrom bs4 import BeautifulSoupimport MySQLdb conn= MySQLdb.connect(host='localhost' , user='root', passwd='root', db ='scraping')cur = conn.cursor()link = "http://www.santosta...

2019-05-11 10:41:00 946

原创 人工处理验证码

1.获取验证码动态匹配码。我们可以定义一个get_si_code()函数,它会进入注册页面,从HTML代码中用re.search方法获取si_code_reg的值,最后返回这个值。def get_si_code(): # si_code是一个动态变化的参数 index_url = 'http://www.santostang.com/wp-login.php? a...

2019-05-11 10:28:48 1326

原创 beautifulsoup实践:房屋价格数据

import requestsfrom bs4 import BeautifulSoupimport time headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98Safari/537....

2019-05-11 10:18:16 214

原创 电影天堂数据爬取

# coding: utf-8import requestsfrom lxml import etreeimport xlwtheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}# 1.urlurl = 'http://www....

2019-05-10 17:52:19 18218

原创 xpath的运用

# coding: utf-8import requestslxml 包 专门用处理一些html和xml的 打开cmd命令 输入pip install lxml引入etree模块from lxml import etreexpath 一组特定的规则,可以根据特殊的语法结构,匹配网页中的数据// 从当前的标签开始查找@ 表示获取属性或者根据属性查找//a[@class=“...

2019-05-10 17:51:04 193

原创 jd_spider

# coding: utf-8 from selenium import webdriver import timedriver = webdriver.Firefox()driver.get('https://www.jd.com')time.sleep(2)driver.find_element_by_id('key').send_keys(u'笔记本电脑') ele = ...

2019-05-10 17:49:22 227

原创 selenium

# coding: utf-8# 打开cmd命令行 输入pip install selenium 下载包# 从selenium中引入webdriverfrom selenium import webdriver# 引入时间模块import time# 1.创建浏览器对象,并打开浏览器driver = webdriver.Firefox()# 2.在浏览器中访问网址driver...

2019-05-10 17:40:00 183

原创 爬取招聘网站

# coding: utf-8import requestsimport reimport xlwtclass ZLZP(object):'''http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京%2B上海%2B广州%2B深圳%2B杭州&kw=python'''def __init__(self): se...

2019-05-10 17:38:12 961

原创 帖子信息爬取

# -*- coding: utf-8 -*-import requestsimport re‘’’(‘J-Dub’, ‘小吧主’, ‘13’, ‘有的人天之骄子,从选秀便是球队核心有的人甘作绿叶,一心一意干好自己的事有的人能力有限,最后只能被联盟淘汰而有的人虽有天赋,但是球队的处境让他无法让他的天赋得到兑现,而他们可能在离开球队后,便得到突猛进的发展,可能在同位置球员离开后成为球队...

2019-05-10 17:33:31 316

原创 文件的写入

w+读写 r+读写 a+读写wb+读写二进制数据w模式:如果文件不存在,会自动创建文件,如果文件存在打开文件,并且一旦向文件中写入内容,原来的内容的将会被覆盖a模式:如果文件不存在,会自动创建文件,如果文件存在打开文件,并且会一直向文件中追加数据,不会将原来的数据覆盖r模式:不会自动创建文件,假设文件不存在,直接抛出异常(报错),可以使用下面的方式做判断,有文件再打开...

2019-05-10 17:32:12 249

原创 正则表达式的运用

coding: utf-8python 内置re模块,用来支持正则表达式import re正则表达式string = 'abccccccdedfdgbgds'1.构造正则表达式a.* 贪婪模式 匹配到abbcdefggs全部a.*? 非贪婪模式 匹配到a 尽可能少的匹配字符pattern = re.compile('a.*b')2.使用正则表达式,在大字符串中搜索数据ma...

2019-05-10 17:30:14 155

原创 json的运用

# coding:utf-8在python中发送请求下载requests包,使用requests发请求windows+r 输入cmd 回车打开命令行工具 输入pip install requests输入pip list 查看已经安装过的包import requests# python内置的包,jsonimport jsonwhile True:print '*****...

2019-05-10 17:25:01 190

原创 cookies

import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}cookies = {'cookie': '....'}url = '...'r = ...

2019-05-01 21:09:06 171

转载 Sax

代码如下:import stringfrom xml.parsers.expat import ParserCreateclass DefaultSaxHandler(object):def start_element(self, name, attrs): self.element = name print('element: %s, attrs: %s' % (nam...

2019-04-30 21:54:28 119

JSP在线考试系统

基于JSP的在线考试系统 所使用工具为 myeclipse和mysql 打开软件 启动程序 打开数据库 在网页输入 localhost:8080/skaoshi 进入到学生登录页面 学生的初始账号密码:123 123 教师的初始账号密码:js js 管理员的初始账号密码:admin admin

2019-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除