自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 爬取拉钩网 python有关的职位信息 存入mongo数据库

前一篇是把数据存入csv。本篇将把数据存入mongodb数据库,并结束对拉勾网内容的爬取,后面看情况再爬取其他招聘网站的信息。代码如下:import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport bs4from multiprocessing import Poolimport threadingfrom pymongo import MongoClienthead={"user

2020-05-14 12:50:12 380

原创 多进程、多线程 爬取拉勾网的职位信息和工作内容

import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport csvimport bs4from multiprocessing import Poolimport threadinghead={"user-agent": "Mozilla/5.0", "referer": "https://www.lagou.com/jobs/list_python?labelWords=

2020-05-12 10:41:45 428 1

原创 ajax异步,多进程爬取股票信息,写入csv文件,10s大约能爬4000条数据

import csvimport requestsimport jsonimport timefrom multiprocessing import Pool''' 1、4核cpu,多进程大约能快5倍。 '''def getHtml(url): try: html=requests.get(url) html.raise_for_status() html.encoding="utf-8" return html.

2020-05-09 14:28:36 428

原创 qq邮箱发送邮件到163邮箱

import smtplib #主要负责发送邮件#email 主要负责构造邮件from email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImage'''基本信息'''send_email='' #发送邮箱pa...

2020-03-25 08:49:05 786

原创 爬取百度搜索子网页的(文字、url、时间),爬取不了的截图——2

尝试了百度进行某关键词搜索(比如“和平精英”),并搜索前30页。发现百度搜索的优点和不足。优点:1、搜索面广,涉及不同的网页,如图中的知乎、搜狐、腾讯网、网易号、贴吧等等。2、能够让自己对不了解的东西有个较为全面的认识。缺点:存在很多重复的内容,爬取了30页共300条子网址,我发现有用的子网页就70条左右。(当然,不包括视频网址和文本网址,我是仅以截图内容进行判断)通过excel处理后的相关数据...

2020-03-24 08:42:39 567

转载 VBA将excel表格中关键字标红

转载Sub 将某一关键词标红()Dim Rng As Range, RngStart As Range, Str$, N%On Error GoTo skip '设置出错跳转Str = InputBox("请输入要查找的内容:", "输入") '利用输入框输入要查找的内容If Cells.Find(Str) Is Nothing Then '如果工作表未找到要查找的内容及提示 ...

2020-03-22 11:25:19 5037

原创 爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏

为了方便快速从百度搜索找到自己想要的信息,开始尝试。第一步:爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏后面研究后更新。import requestsfrom lxml import etreeimport csvimport refrom selenium import webdriverfrom selenium.webdriver.chrome.optio...

2020-03-21 15:24:19 679

转载 selenium+Headless Chrome实现不弹出浏览器自动化登录

转载from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom PIL import Image,ImageEnhance path = 'E:/Cyou/chromedriver.exe' #打开浏览器chrome_options = Options()chr...

2020-03-21 14:55:31 972

原创 查找word指定内容并输出到csv

word中存在非标准字符,如拉丁字母。在上一节讲到的替换word关键内容基础上,这节将找出没被替换的内容,自己在word上手动标记。135条查重内容中,有9条是没被识别的。#用python我们可以抓取网页,表格,JSON这种半结构化的数据,那么word文档中的内容这种非结构化的数据我们如何抓取呢。# check_13=re.findall("thetihuan13",file_text) #筛...

2020-03-18 13:15:36 577

原创 win32替换word指定内容

import csv# import osfrom win32com import client as clientfrom win32com.client import constants'''#打开csv文件 输入参数1'''csv_file=csv.reader(open('reportnew.csv','r'))print(csv_file) #可以先输出看一下该文件是什...

2020-03-18 13:11:41 199

原创 beaurifulsoup读取本地网页数据并存入csv

毕业穷狗采用了paperYY查重,查重内容是以html显示,为了方便修改论文里面重复的地方,只能先把网页内容爬出来,然后再说。直接上代码from bs4 import BeautifulSoupimport csv#读取本地网页with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')a...

2020-03-17 18:32:56 384

转载 爬虫初学8——cookie爬淘宝列表

转载——实测可用# //get_goods_from_taobao#现在淘宝只能登陆之后才能搜索,所以本次介绍的是登录获取cookie之后的操作。import requests #库import re #正则import xlsxwriter #写入excel#不要爬取太多,小心被封 发布的时候注释掉cok = '' # 此处写入登录之后自己的cookie'''# 获...

2020-03-17 10:47:02 625

原创 爬虫初学7——爬取小叶紫檀(价格、京东好店、评价数)

参考爬虫初学6本来就想爬一下京东和淘宝,选择有点保证的店铺来买小叶紫檀(水太深),现在初步通过爬京东找了下,也发现一些可信度比较高的店铺,奈何价格不太合我心意,我还是找我的几十块钱的手串吧import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n)...

2020-03-16 17:12:37 512

转载 爬虫初学6—爬取京东手机列表2(价格及评论)

转载:import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n): # 构造每一页的url变化 url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&...

2020-03-16 14:36:13 1060

转载 爬虫初学5-爬取京东手机列表1

转载import requestsfrom lxml import etree# 如果想通过xpath获取html源码中的内容,就要先将html源码转换成_Element对象,然后再使用xpath()方法进行解析。例如,这里有一段最简单的html源码:"<html><body><h1>This is a test</h1></body&...

2020-03-16 13:34:17 677

原创 爬虫初学4 解决“json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)”

京东爬取——json报错,及解决。先附上XVII丶B大神代码(网址https://blog.csdn.net/qq_34696236/article/details/80511940?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task):将E:\p...

2020-03-15 11:57:27 9663 6

转载 爬虫初学3

京东爬评论——找到目标网页的json,保存到本地import requestsimport urllib3 #urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理,而 urllib3是服务于升级的http 1.1标准,且拥有高效 http连接池管理及 http 代理服务的功能库import jsonimport urllibimport urll...

2020-03-15 11:22:12 195

原创 爬虫初学2

采用requests和parsel爬取美女图片#parsel 主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 本代码采用xpath#爬虫初学2 "设置请求头" "运用parsel"进行爬取美女图片import requestsimport parselfor page in range(1,6): #打印多页,添加的第一行 print('=====...

2020-03-14 12:46:47 204

转载 爬虫初学1

模仿代码,爬取新浪图片import urllib.requestimport reimport chardet'''#打开网页,读取网页,网页解码'''page = urllib.request.urlopen('http://photo.sina.com.cn/') # 打开网页htmlCode = page.read() # 获取网页源代码# print(chardet.de...

2020-03-13 11:42:59 135

原创 python pyautogui自动化点击

用pyautogui进行自动化点击,为了实现依次点击文件夹和文件夹里面的文件,编写个简单代码。import pyautoguiimport timex,y=pyautogui.size() #返回当前屏幕分辨率print(x,y)x,y=pyautogui.position() #返回当前鼠标位置print(x,y)# pyautogui.moveTo(x,y,du...

2020-03-12 21:01:26 7895

转载 python登录QQ 转载

每次登录qq写账号密码难受,借大神的代码实现各qq自动登录,以下直接上代码,须提前安装好pyhook和pyuserinput。#!/usr/bin/pythonimport osimport timeimport win32guiimport win32apiimport win32conimport pymouse, pykeyboardfrom pymouse import ...

2020-03-12 12:02:56 872 1

原创 在京东验证码基础上,写个简单的抢口罩脚本

在大神基础上,勉强通过京东验证,现在在之前代码基础上,写个简单的抢口罩脚本,代码如下import cv2import timeimport numpy as npfrom selenium import webdriverfrom urllib import requestfrom selenium.webdriver.common.action_chains import Actio...

2020-03-11 13:25:53 2071

原创 python 京东滑动验证码 2类代码,1类低概率通过

python 初学者一开始就挑战京东的滑动验证码的话,难度有点大,我也是研究了好久,不是图片问题就是代码问题,还有初学者遇到的各种问题(都能让人纠结半天),比如少打个括号、少打:、没有缩进等等。最后还是在大神的代码基础上稍微加了两行才能低概率通过(。。。。)废话不多说了,共两类代码,第一类采用的是完整原图,第二类采用的是缺口原图(进行灰度、二值化处理),最后结果是:第一类代码因为轨迹问题,始终通...

2020-03-10 16:52:32 1386 3

原创 Python 京东验证码 datadata:image/png转码保存为图片

Python 京东验证码 datadata:image/png转码保存为图片初学python,在研究京东的验证码,下边是得到图片的过程,后面的还在研究。。。from selenium import webdriverimport base64import timebrowser=webdriver.Firefox()browser.get("https://www.jd.com/"...

2020-03-08 18:43:33 2333

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除