derrick_lh-CSDN博客

原创 2020-07-19

import timefrom lxml import etreefrom selenium import webdriverdriver_path = r"C:\ChromeDriver\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)base_url="https://www.amazon.com""""option = webdriver.ChromeOptions()option.add_argument

2020-07-19 18:37:10 117

原创 Scrapy加Selenium爬取简书

爬虫主体：# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom js_spi.items import ArticleItemclass JsSpider(CrawlSpid...

2020-03-21 17:17:14 347 3

原创 scrapy爬取汽车之家图片之pipeline方法进阶

一：不利用scrapy自带的下载图片的方法爬虫主体：# -*- coding: utf-8 -*-import scrapyfrom car_spi.items import CarSpiItemclass CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['"car.autohome.com.cn"'...

2020-03-19 14:33:58 394

原创拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息

拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息import timefrom lxml import etreefrom selenium import webdriverJOB_LIST = []class Lagou_Spider(object): driver_path = r"C:\ChromeDriver\chromedriver.exe" ...

2020-03-16 12:25:43 289

原创 python多线程模式爬取表情包并根据类别放入对应文件夹

总共爬取了前一百页，耗时大概有四五分钟import requestsimport reimport urllibimport osimport threadingfrom queue import QueuegLock = threading.Lock()HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W...

2020-03-14 14:46:11 190

原创普通模式与多线程模式之爬取斗图拉网表情对比

普通模式：import requestsimport reimport urllibimport osHEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537...

2020-03-14 14:36:04 82

原创消费者与生产者多线程之thread下Lock与Condition对比

Lock版本：import threadingimport randomimport timegLock = threading.Lock()ALL_MONEY = 1000TIME_COUNT = 0class producer(threading.Thread): def run(self): global ALL_MONEY glo...

2020-03-14 14:33:30 124

原创正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词

正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词import requestsimport reHEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/5...

2020-03-12 21:28:46 296

原创 python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出

python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出`import requestsimport lxmlfrom bs4 import BeautifulSoupimport pandas as pdimport matplotlib.pyplot as plturl1 = 'http://www.weather.com.cn/textFC/hb.s...

2020-03-12 13:54:26 651

原创我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页

爬取了电影天堂最新电影里面的前七页所有电影的详情页面，并逐条写入到excelimport requestsfrom lxml import etreeimport pandas as pdurl = 'https://www.dytt8.net/html/gndy/dyzz/index.html'HEADERS = { 'User-Agent': 'Mozilla/5.0 (W...

2020-03-11 14:10:32 9994

原创我的第一个爬虫小程序之利用requests和lxml库爬取豆瓣电影新片top10

利用requests和lxml库爬取豆瓣电影新片top10,并写入txt文档中代码部分：import requestsfrom lxml import etree# parser = etree.HTMLParser('encoding = utf-8')# html = etree.parse('tencent.html',parser=parser)# # 1.获取所有的tr标签...

2020-03-10 16:28:28 647

原创 python内置库urllib的爬虫基本使用

1.POST请求from urllib import request, parseheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36" , "R...

2020-03-09 21:35:19 109

原创 requests库的一些基本的使用方法

requests库的一些基本使用方法，供自己日后使用备查`import requests# get请求url = "http://www.baidu.com/s"params = {'wd':''}headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...

2020-03-09 21:28:06 299

原创利用pandas进行基础的excel数据分析操作

利用excel进行基础的excel数据分析，代码供自己日后学习及复查备用import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import linregressimport seaborn as snsstudents = pd.read_excel("./studen...

2020-03-07 17:24:52 392

原创 pandas进行excel数据的基础填充

涉及到一个月数满12年数进一的算法import osimport pandas as pdfrom datetime import date,timedeltadef add_month(d,md): yd = md // 12 m = d.month + md % 12 if m != 12: yd += m // 12 m = ...

2020-03-06 16:31:13 221

原创使用pandas进行基础的图表的绘制

利用pandas进行图表的基础的绘制，以下是根据课程学习的代码部分。供自己日后学习备查。import pandasimport matplotlib.pyplot as pltbooks = pandas.read_excel("./15天父商品流量.xlsx",index_col="序列")books["订单商品数量转化率"] = books["已订购商品数量"]/books["买家...

2020-03-06 16:28:57 334

原创 pygame小游戏飞机大战

我的第一个临摹python小游戏代码学习完python基础的第一个阶段，以下是跟随课程练习的第一个python游戏代码。供自己阅读以及理解消化。主程序代码块import pygamefrom plane_sprite import *# 屏幕大小的常量SCREEN_RECT = pygame.Rect(0, 0, 480, 700)# 刷新的帧率FRAME_PER_SEC = 6...

2020-02-26 17:30:55 323

derrick_lh的博客