![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
mr_xinL
这个作者很懒,什么都没留下…
展开
-
爬取拉钩网 python有关的职位信息 存入mongo数据库
前一篇是把数据存入csv。本篇将把数据存入mongodb数据库,并结束对拉勾网内容的爬取,后面看情况再爬取其他招聘网站的信息。代码如下:import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport bs4from multiprocessing import Poolimport threadingfrom pymongo import MongoClienthead={"user原创 2020-05-14 12:50:12 · 380 阅读 · 0 评论 -
多进程、多线程 爬取拉勾网的职位信息和工作内容
import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport csvimport bs4from multiprocessing import Poolimport threadinghead={"user-agent": "Mozilla/5.0", "referer": "https://www.lagou.com/jobs/list_python?labelWords=原创 2020-05-12 10:41:45 · 429 阅读 · 1 评论 -
ajax异步,多进程爬取股票信息,写入csv文件,10s大约能爬4000条数据
import csvimport requestsimport jsonimport timefrom multiprocessing import Pool''' 1、4核cpu,多进程大约能快5倍。 '''def getHtml(url): try: html=requests.get(url) html.raise_for_status() html.encoding="utf-8" return html.原创 2020-05-09 14:28:36 · 428 阅读 · 0 评论 -
爬取百度搜索子网页的(文字、url、时间),爬取不了的截图——2
尝试了百度进行某关键词搜索(比如“和平精英”),并搜索前30页。发现百度搜索的优点和不足。优点:1、搜索面广,涉及不同的网页,如图中的知乎、搜狐、腾讯网、网易号、贴吧等等。2、能够让自己对不了解的东西有个较为全面的认识。缺点:存在很多重复的内容,爬取了30页共300条子网址,我发现有用的子网页就70条左右。(当然,不包括视频网址和文本网址,我是仅以截图内容进行判断)通过excel处理后的相关数据...原创 2020-03-24 08:42:39 · 567 阅读 · 0 评论 -
爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏
为了方便快速从百度搜索找到自己想要的信息,开始尝试。第一步:爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏后面研究后更新。import requestsfrom lxml import etreeimport csvimport refrom selenium import webdriverfrom selenium.webdriver.chrome.optio...原创 2020-03-21 15:24:19 · 679 阅读 · 0 评论 -
爬虫初学8——cookie爬淘宝列表
转载——实测可用# //get_goods_from_taobao#现在淘宝只能登陆之后才能搜索,所以本次介绍的是登录获取cookie之后的操作。import requests #库import re #正则import xlsxwriter #写入excel#不要爬取太多,小心被封 发布的时候注释掉cok = '' # 此处写入登录之后自己的cookie'''# 获...转载 2020-03-17 10:47:02 · 626 阅读 · 0 评论 -
爬虫初学7——爬取小叶紫檀(价格、京东好店、评价数)
参考爬虫初学6本来就想爬一下京东和淘宝,选择有点保证的店铺来买小叶紫檀(水太深),现在初步通过爬京东找了下,也发现一些可信度比较高的店铺,奈何价格不太合我心意,我还是找我的几十块钱的手串吧import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n)...原创 2020-03-16 17:12:37 · 512 阅读 · 0 评论 -
爬虫初学6—爬取京东手机列表2(价格及评论)
转载:import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n): # 构造每一页的url变化 url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&...转载 2020-03-16 14:36:13 · 1063 阅读 · 0 评论 -
爬虫初学5-爬取京东手机列表1
转载import requestsfrom lxml import etree# 如果想通过xpath获取html源码中的内容,就要先将html源码转换成_Element对象,然后再使用xpath()方法进行解析。例如,这里有一段最简单的html源码:"<html><body><h1>This is a test</h1></body&...转载 2020-03-16 13:34:17 · 677 阅读 · 0 评论 -
爬虫初学4 解决“json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)”
京东爬取——json报错,及解决。先附上XVII丶B大神代码(网址https://blog.csdn.net/qq_34696236/article/details/80511940?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task):将E:\p...原创 2020-03-15 11:57:27 · 9666 阅读 · 6 评论 -
爬虫初学3
京东爬评论——找到目标网页的json,保存到本地import requestsimport urllib3 #urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理,而 urllib3是服务于升级的http 1.1标准,且拥有高效 http连接池管理及 http 代理服务的功能库import jsonimport urllibimport urll...转载 2020-03-15 11:22:12 · 195 阅读 · 0 评论 -
爬虫初学2
采用requests和parsel爬取美女图片#parsel 主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 本代码采用xpath#爬虫初学2 "设置请求头" "运用parsel"进行爬取美女图片import requestsimport parselfor page in range(1,6): #打印多页,添加的第一行 print('=====...原创 2020-03-14 12:46:47 · 206 阅读 · 0 评论 -
爬虫初学1
模仿代码,爬取新浪图片import urllib.requestimport reimport chardet'''#打开网页,读取网页,网页解码'''page = urllib.request.urlopen('http://photo.sina.com.cn/') # 打开网页htmlCode = page.read() # 获取网页源代码# print(chardet.de...转载 2020-03-13 11:42:59 · 135 阅读 · 0 评论