爬虫
作小寒
城市感知计算(sensingcity)
展开
-
map函数
defget_type(df_obj,col):tmp=df_obj[col].value_counts().to_dict()dic={}index=0foriin(tmp):dic[i]=indexindex=index+1returndic#每个不同的变量取什么值,由自...原创 2020-04-01 15:11:14 · 262 阅读 · 2 评论 -
xpath的优化
# -*- coding: UTF-8 -*-__author__ = 'ZhengXiang'__time__ = '2020/2/10 20:26'import requestsimport xlwtimport redisfrom lxml import etreefrom urllib import parseimport pandas as pdimport pym...原创 2020-02-10 21:26:02 · 682 阅读 · 4 评论 -
知网爬虫
主要是联系了urlib库的使用,通过parse进行解析数据。实名感谢opensourceChina# -*- coding: UTF-8 -*-__author__ = 'zy'__time__ = '2019/3/1 21:05'#//*[@id="ctl00"]/table/tbody/tr[2]/td/table/tbody/tr[2]/td[2]/a/text()fro...原创 2019-03-03 18:33:10 · 6135 阅读 · 1 评论 -
智联招聘
# -*- coding: UTF-8 -*-__author__ = 'zy'__time__ = '2019/4/1 23:13'from urllib import request,parsefrom urllib.parse import urlencodefrom bs4 import BeautifulSoupimport jsonfrom jsonpath impor...原创 2019-04-02 10:11:30 · 481 阅读 · 0 评论 -
云打码平台python3版本
# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2019/2/2 0002 22:06'import jsonimport timeimport requestsclass YDMHttp: apiurl = 'http://api.yundama.com/api.php' username = '' pas...原创 2019-04-07 21:50:08 · 574 阅读 · 0 评论 -
处理获取的json
以前我都是挨个按照层级来解析的,有个更好的方案。rsp = request.Request(url, headers=header)print(url)rsp = request.urlopen(rsp)json_data = rsp.read()data = json.loads(json_data)WORK_NAME = jsonpath(data, '$..jobName')...原创 2019-04-28 17:07:30 · 163 阅读 · 1 评论 -
解析温州台风网json数据
# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2018/12/10 0010 22:56'import requests,pymongo,json,timedef get_typhoon(url): headers={ 'Cookie':' _gscu_1378142123=44443967koho5v13; _g...原创 2019-04-19 16:29:58 · 1656 阅读 · 0 评论 -
爬虫遇到线程假死。如何重复请求
NETWORK_STATUS = True # 判断状态变量 try: req = s.get(test_url, headers=header,timeout=(3,7)) if req.status_code == 200: req=req ...转载 2019-05-05 21:11:00 · 1438 阅读 · 0 评论 -
python写入csv老是乱码或者各种不好
存储为用逗号分隔符的文本文件改文件后缀即可这里有一个只是针对python2编码的详细介绍https://www.cnblogs.com/phyger/p/9561283.htmlpython2最大的坑在于中文编码问题,遇到中文报错首先加u,再各种encode、decode。当list、tuple、dict里面有中文时,打印出来的是Unicode编码,这个是无解的。对中文编码纠结...转载 2019-05-06 16:57:03 · 1422 阅读 · 0 评论 -
微博爬虫api版本
# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2019/1/30 0030 16:20'uid=5462875448user_name='热爱学习好宝宝'containerid=1076035462875448params = {"uid": "{uid}", "luicode": "10000011", ...原创 2019-01-30 18:00:58 · 1496 阅读 · 0 评论 -
网络爬虫数据采集之旅
原创 2018-11-26 12:09:54 · 345 阅读 · 0 评论 -
K均值聚类的文本挖掘
原创 2018-12-02 11:48:33 · 418 阅读 · 2 评论 -
mongodb导出csv json
mongoexport -d weibo -c 2018-11-22-22_17_05台风山竹 -o file --type json -f "mid,text,userid,username,created,source,area" -o E:\Githubresponsity\result.json原创 2018-11-26 22:14:23 · 240 阅读 · 5 评论 -
笔记
soup.p["class"]['class']#返回了列表这种方法的内容, 查询,<p class="whu">SGGLIB</p>soup.p.stringprint(soup.find(id='link3'))#返回的单个<a class="sister" href="http://example.com/tillie" id="原创 2018-11-27 21:26:05 · 149 阅读 · 0 评论 -
数据挖掘算法研究与地理可视化
原创 2018-12-10 20:24:11 · 254 阅读 · 1 评论 -
天气爬虫
# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2018/11/26 0026 22:18'import requestsimport pymongo,timeimport lxmlfrom lxml import etreefrom bs4 import BeautifulSoupmonth='201809'headers={'...原创 2019-01-02 23:08:39 · 737 阅读 · 0 评论 -
武汉大学教务系统爬虫
利用xpath进行数据抓取,存入mongo数据库,有心的同学可以尝试做抢课脚本哦!采用云打码平台进行验证码识别,当然手动输入也不是不可以的。# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2019/2/1 0001 17:50'import requestsimport reimport sys'''模拟登录'''CaptchaUr...原创 2019-02-03 12:18:10 · 1892 阅读 · 0 评论 -
百度学术测试,未经优化,抓取文章引用次数
# -*- coding: UTF-8 -*-_author_ = 'zy'_date_ = '2019/2/7 0007 12:00'import requests,lxmlfrom lxml import etree#//*[@id="gs_res_ccl_mid"]/div[2]/div[2]/div[3]/a[3]xpath='//*[@id="1"]/div[1]/div[...原创 2019-02-07 12:31:43 · 769 阅读 · 4 评论 -
微博带cookie访问抓取热搜
# -*- coding: utf-8 -*-'''@author: Yalei Meng E-mail: yaleimeng@sina.com@license: (C) Copyright 2017, HUST Corporation Limited.@desc:获取新浪热门微博内容。保存为txt文件@DateTime: Created on 2017/10/3,at 15:48...转载 2018-10-28 21:57:12 · 739 阅读 · 0 评论